Textbooks Are All You Need II: phi-1.5 technical report

11 September 2023

Papers citing "Textbooks Are All You Need II: phi-1.5 technical report"

50 / 108 papers shown

Title
SGIC: A Self-Guided Iterative Calibration Framework for RAG Guanhua Chen Yutong Yao Lidia S. Chao Xuebo Liu Derek F. Wong 35 0 0 19 Jun 2025
GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models Evelyn Ma Duo Zhou Peizhi Niu Huiting Zhou Huan Zhang Olgica Milenković S. Rasoul Etesami MU 123 0 0 12 Jun 2025
On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention Yeonju Ro Zhenyu Zhang Souvik Kundu Zhangyang Wang Aditya Akella 112 0 0 11 Jun 2025
PROVSYN: Synthesizing Provenance Graphs for Data Augmentation in Intrusion Detection Systems Yi Huang Wajih UI Hassan Yao Guo Xiangqun Chen Ding Li 73 0 0 06 Jun 2025
Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models Thao Nguyen Yang Li O. Yu. Golovneva Luke Zettlemoyer Sewoong Oh Ludwig Schmidt Xian Li OnRL 153 0 0 05 Jun 2025
Beyond Text Compression: Evaluating Tokenizers Across Scales Jonas F. Lotz António V. Lopes Stephan Peitz Hendra Setiawan Leonardo Emili 63 0 0 03 Jun 2025
Circuit Stability Characterizes Language Model Generalization Alan Sun LRM 33 0 0 30 May 2025
Pre-Training Curriculum for Multi-Token Prediction in Language Models Ansar Aynetdinov Alan Akbik LRM 57 0 0 28 May 2025
What happens when generative AI models train recursively on each others' generated outputs? Hung Ahn Vu Galen Reeves Emily Wenger 71 0 0 27 May 2025
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression Peijie Dong Zhenheng Tang Xiang Liu Lujun Li Xiaowen Chu Bo Li 106 0 0 26 May 2025
An Initial Exploration of Fine-tuning Small Language Models for Smart Contract Reentrancy Vulnerability Detection Ignacio Mariano Andreozzi Pofcher Joshua Ellul 28 0 0 25 May 2025
Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models Vijeta Deshpande Debasmita Ghose John D. Patterson Roger Beaty Anna Rumshisky 116 0 0 22 May 2025
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning Zebin You Shen Nie Xiaolu Zhang Jun Hu Jun Zhou Zhiwu Lu J. Wen Chongxuan Li MLLM VLM 112 2 0 22 May 2025
Enhancing LLMs via High-Knowledge Data Selection Feiyu Duan Xuemiao Zhang Sirui Wang Haoran Que Yuqi Liu Wenge Rong Xunliang Cai 239 0 0 20 May 2025
NAMET: Robust Massive Model Editing via Noise-Aware Memory Optimization Yanbo Dai Zhenlan Ji Zongjie Li Shuai Wang KELM 64 0 0 17 May 2025
Exploring Criteria of Loss Reweighting to Enhance LLM Unlearning Puning Yang Qizhou Wang Zhuo Huang Tongliang Liu Chengqi Zhang Bo Han MU 124 0 0 17 May 2025
A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment Jean-Philippe Corbeil Amin Dada Jean-Michel Attendu Asma Ben Abacha Alessandro Sordoni Lucas Caccia François Beaulieu Thomas Lin Jens Kleesiek Paul Vozila LM&MA 113 0 0 15 May 2025
Exploring the Role of Diversity in Example Selection for In-Context Learning Janak Kapuriya Manit Kaushik Debasis Ganguly S. Bhatia 199 0 0 03 May 2025
Synthesize-on-Graph: Knowledgeable Synthetic Data Generation for Continue Pre-training of Large Language Models Xuhui Jiang Shengjie Ma Chengjin Xu Cehao Yang Liyu Zhang Jian Guo SyDa 115 0 0 02 May 2025
DualOptim: Enhancing Efficacy and Stability in Machine Unlearning with Dual Optimizers Xuyang Zhong Haochen Luo Chen Liu MU 73 1 0 22 Apr 2025
When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers Hongkang Li Yihua Zhang Shuai Zhang Ming Wang Sijia Liu Pin-Yu Chen MoMe 264 10 0 15 Apr 2025
Cat, Rat, Meow: On the Alignment of Language Model and Human Term-Similarity Judgments Lorenz Linhardt Tom Neuhäuser Lenka Tětková Oliver Eberle ALM AI4TS 70 1 0 10 Apr 2025
Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model Abdelrahman M. Shaker Muhammad Maaz Chenhui Gou Hamid Rezatofighi Salman Khan Fahad Shahbaz Khan 430 0 0 27 Mar 2025
OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM Responses Angela Lopez-Cardona Sebastian Idesis Miguel Barreda-Ángeles Sergi Abadal Ioannis Arapakis 144 0 0 13 Mar 2025
Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models Md Azim Khan A. Gangopadhyay Jianwu Wang Robert F. Erbacher VLM 86 0 0 08 Mar 2025
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions Emmy Liu Amanda Bertsch Lintang Sutawika Lindia Tjuatja Patrick Fernandes ... Siyang Song Carolin (Haas) Lawrence Aditi Raghunathan Kiril Gashteovski Graham Neubig 279 3 0 05 Mar 2025
Revisiting Self-Consistency from Dynamic Distributional Alignment Perspective on Answer Aggregation Yiwei Li Ji Zhang Shaoxiong Feng Peiwen Yuan Xinyu Wang ... Y. Zhang Chuyi Tan Boyuan Pan Yao Hu Kan Li HILM 152 2 0 27 Feb 2025
Synthetic Text Generation for Training Large Language Models via Gradient Matching Dang Nguyen Zeman Li M. Bateni Vahab Mirrokni Meisam Razaviyayn Baharan Mirzasoleiman 106 2 0 24 Feb 2025
Reading the unreadable: Creating a dataset of 19th century English newspapers using image-to-text language models Jonathan Bourne 205 0 0 24 Feb 2025
Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models Aryan Jadon Avinash Patil Shashank Kumar SyDa 87 1 0 21 Feb 2025
LOVA3: Learning to Visual Question Answering, Asking and Assessment Henry Hengyuan Zhao Pan Zhou Difei Gao Zechen Bai Mike Zheng Shou 165 9 0 21 Feb 2025
Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale Fan Zhou Zengzhi Wang Qian Liu Junlong Li Pengfei Liu ALM 227 15 0 17 Feb 2025
TinyEmo: Scaling down Emotional Reasoning via Metric Projection Cristian Gutierrez LRM 269 0 0 17 Feb 2025
Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training Yao-Ching Yu Tsun-Han Chiang Cheng-Wei Tsai Chien-Ming Huang Wen-Kwang Tsao 121 7 0 16 Feb 2025
How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training Yixin Ou Yunzhi Yao N. Zhang Hui Jin Jiacheng Sun Shumin Deng Zechao Li Ningyu Zhang KELM CLL 128 2 0 16 Feb 2025
UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths Weijia Mao Zhiyong Yang Mike Zheng Shou MoE 208 1 0 10 Feb 2025
From Cool Demos to Production-Ready FMware: Core Challenges and a Technology Roadmap Gopi Krishnan Rajbahadur G. Oliva Dayi Lin Ahmed E. Hassan 125 1 0 28 Jan 2025
Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators Jinjie Wei Dongling Xiao Jinjie Wei Mingcheng Li Zhaoyu Chen Ke Li Li Zhang HILM 171 6 0 28 Jan 2025
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models Makoto Shing Kou Misaki Han Bao Sho Yokoi Takuya Akiba VLM 134 4 0 28 Jan 2025
Human-like conceptual representations emerge from language prediction Ningyu Xu Qi Zhang Chao Du Qiang Luo Xipeng Qiu Xuanjing Huang Menghan Zhang 190 0 0 21 Jan 2025
Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding Ziyang Chen Mingxiao Li Zhongfu Chen Nan Du Xiaolong Li Yuexian Zou 148 1 0 19 Jan 2025
PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms Yilong Li Jingyu Liu Hao Zhang M Badri Narayanan Utkarsh Sharma Shuai Zhang Pan Hu Yijing Zeng Jayaram Raghuram Suman Banerjee MQ 144 4 0 10 Jan 2025
General Information Metrics for Improving AI Model Training Efficiency Jianfeng Xu Congcong Liu Xiaoying Tan Xiaojie Zhu Anpeng Wu ... Weijun Kong Chun Li Hu Xu Kun Kuang Leilei Gan 158 1 0 02 Jan 2025
FED: Fast and Efficient Dataset Deduplication Framework with GPU Acceleration Youngjun Son Chaewon Kim Jaejin Lee 134 0 0 02 Jan 2025
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining Wenqi Zhang Hang Zhang Xin Li Jiashuo Sun Yongliang Shen Weiming Lu Deli Zhao Yueting Zhuang Lidong Bing VLM 179 2 0 01 Jan 2025
Code LLMs: A Taxonomy-based Survey Nishat Raihan Christian D. Newman Marcos Zampieri 148 1 0 11 Dec 2024
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning Ruben Ohana Michael McCabe Lucas Meyer Rudy Morel Fruzsina J. Agocs ... François Rozet Liam Parker M. Cranmer S. Ho Shirley Ho PINN AI4CE 193 23 1 30 Nov 2024
Towards Robust Evaluation of Unlearning in LLMs via Data Transformations Abhinav Joshi Shaswati Saha Divyaksh Shukla Sriram Vema Harsh Jhamtani Manas Gaur Ashutosh Modi MU 150 5 0 23 Nov 2024
Training Bilingual LMs with Data Constraints in the Targeted Language Skyler Seto Maartje ter Hoeve He Bai Natalie Schluter David Grangier 199 1 0 20 Nov 2024
VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models Ming Cheng Jiaying Gong Chenhan Yuan William A. Ingram Edward A. Fox Hoda Eldardiry 240 1 0 07 Nov 2024