Textbooks Are All You Need II: phi-1.5 technical report

11 September 2023

Papers citing "Textbooks Are All You Need II: phi-1.5 technical report"

50 / 339 papers shown

Title
Can Small Language Models Learn, Unlearn, and Retain Noise Patterns? Nicy Scaria Silvester John Joseph Kennedy Deepak N. Subramani MU 19 2 0 01 Jul 2024
MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula Shubhra Mishra Gabriel Poesia Belinda Mo Noah D. Goodman 43 3 0 01 Jul 2024
YuLan: An Open-source Large Language Model Yutao Zhu Kun Zhou Kelong Mao Wentong Chen Yiding Sun ... Wenbing Huang Ze-Feng Gao Yueguo Chen Weizheng Lu Ji-Rong Wen ALM ELM 44 0 0 28 Jun 2024
Belief Revision: The Adaptability of Large Language Models Reasoning Bryan Wilie Samuel Cahyawijaya Etsuko Ishii Junxian He Pascale Fung KELM LRM 39 1 0 28 Jun 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 61 25 0 28 Jun 2024
Scaling Synthetic Data Creation with 1,000,000,000 Personas Tao Ge Xin Chan Dian Yu Haitao Mi Dong Yu Dong Yu SyDa 122 103 0 28 Jun 2024
The Remarkable Robustness of LLMs: Stages of Inference? Vedang Lad Wes Gurnee Max Tegmark 41 37 0 27 Jun 2024
Aligning Teacher with Student Preferences for Tailored Training Data Generation Yantao Liu Zhao Zhang Zijun Yao S. Cao Lei Hou Juanzi Li 49 1 0 27 Jun 2024
Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher Hyunjong Ok Jegwang Ryu Jaeho Lee 45 0 0 26 Jun 2024
Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models Jierun Chen Fangyun Wei Jinjing Zhao Sizhe Song Bohuai Wu Zhuoxuan Peng S.-H. Gary Chan Hongyang R. Zhang 45 8 0 24 Jun 2024
Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts Aditya Sharma Michael Saxon William Yang Wang VLM 44 2 0 24 Jun 2024
Task Oriented In-Domain Data Augmentation Xiao Liang Xinyu Hu Simiao Zuo Yeyun Gong Qiang Lou Yi Liu Shao-Lun Huang Jian Jiao 45 3 0 24 Jun 2024
Instruction Pre-Training: Language Models are Supervised Multitask Learners Daixuan Cheng Yuxian Gu Shaohan Huang Junyu Bi Minlie Huang Furu Wei SyDa 65 20 0 20 Jun 2024
Data-Centric AI in the Age of Large Language Models Xinyi Xu Zhaoxuan Wu Rui Qiao Arun Verma Yao Shu ... Xiaoqiang Lin Wenyang Hu Zhongxiang Dai Pang Wei Koh Bryan Kian Hsiang Low ALM 48 2 0 20 Jun 2024
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries Hitesh Wadhwa Rahul Seetharaman Somyaa Aggarwal Reshmi Ghosh Samyadeep Basu Soundararajan Srinivasan Wenlong Zhao Shreyas Chaudhari Ehsan Aghazadeh RALM 21 6 0 18 Jun 2024
Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks Jack Gallifant Shan Chen Pedro Moreira Nikolaj Munch Mingye Gao Jackson Pond Leo Anthony Celi Hugo J. W. L. Aerts Thomas Hartvigsen Danielle S. Bitterman 51 9 0 17 Jun 2024
HARE: HumAn pRiors, a key to small language model Efficiency Lingyun Zhang Bin jin Gaojian Ge Lunhui Liu Xuewen Shen Mingyong Wu Houqian Zhang Yongneng Jiang Shiqi Chen Shi Pu ALM 46 0 0 17 Jun 2024
Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression Zilun Zhang Yutao Sun Tiancheng Zhao Leigang Sha Ruochen Xu Kyusong Lee Jianwei Yin CLL KELM 56 0 0 17 Jun 2024
On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey Lin Long Rui Wang Ruixuan Xiao Junbo Zhao Xiao Ding Gang Chen Haobo Wang SyDa 61 95 0 14 Jun 2024
OpenVLA: An Open-Source Vision-Language-Action Model Moo Jin Kim Karl Pertsch Siddharth Karamcheti Ted Xiao Ashwin Balakrishna ... Russ Tedrake Dorsa Sadigh Sergey Levine Percy Liang Chelsea Finn LM&Ro VLM 51 371 0 13 Jun 2024
VersiCode: Towards Version-controllable Code Generation Tongtong Wu Weigang Wu Xingyu Wang Kang Xu Suyu Ma Bo Jiang Ping Yang Zhenchang Xing Yuan-Fang Li Gholamreza Haffari 45 4 0 11 Jun 2024
Merging Improves Self-Critique Against Jailbreak Attacks Victor Gallego AAML MoMe 44 3 0 11 Jun 2024
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling Liliang Ren Yang Liu Yadong Lu Yelong Shen Chen Liang Weizhu Chen Mamba 74 57 0 11 Jun 2024
LLM Dataset Inference: Did you train on my dataset? Pratyush Maini Hengrui Jia Nicolas Papernot Adam Dziedzic MIALM 48 28 0 10 Jun 2024
MoPS: Modular Story Premise Synthesis for Open-Ended Automatic Story Generation Yan Ma Yu Qiao Pengfei Liu 40 5 0 09 Jun 2024
Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples Fangxu Yu Lai Jiang Haoqiang Kang Shibo Hao Lianhui Qin LRM AI4CE 101 5 0 09 Jun 2024
Large Language Model-guided Document Selection Xiang Kong Tom Gunter Ruoming Pang 41 4 0 07 Jun 2024
LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition Sreyan Ghosh Sonal Kumar Ashish Seth Purva Chiniya Utkarsh Tyagi R. Duraiswami Dinesh Manocha 49 0 0 06 Jun 2024
Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models Xiang Ji Sanjeev Kulkarni Mengdi Wang Tengyang Xie OffRL 43 4 0 06 Jun 2024
The Life Cycle of Large Language Models: A Review of Biases in Education Jinsook Lee Yann Hicke Renzhe Yu Christopher A. Brooks René F. Kizilcec AI4Ed 42 1 0 03 Jun 2024
LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation Yongjing Yin Jiali Zeng Yafu Li Fandong Meng Yue Zhang 47 1 0 03 Jun 2024
A Survey on Large Language Models for Code Generation Juyong Jiang Fan Wang Jiasi Shen Sungju Kim Sunghun Kim 53 168 0 01 Jun 2024
Large Language Models are Zero-Shot Next Location Predictors Ciro Beneduce Bruno Lepri Massimiliano Luca 43 8 0 31 May 2024
Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs Davide Paglieri Saurabh Dash Tim Rocktaschel Jack Parker-Holder MQ 58 6 0 31 May 2024
Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization Richard Luo Austin Peng Adithya Vasudev Rishabh Jain 42 2 0 31 May 2024
Entangled Relations: Leveraging NLI and Meta-analysis to Enhance Biomedical Relation Extraction William Hogan Jingbo Shang 18 0 0 31 May 2024
Enhancing Large Vision Language Models with Self-Training on Image Comprehension Yihe Deng Pan Lu Fan Yin Ziniu Hu Sheng Shen James Zou Kai-Wei Chang Wei Wang SyDa VLM LRM 44 37 0 30 May 2024
Quriosity: Analyzing Human Questioning Behavior and Causal Inquiry through Curiosity-Driven Queries Roberto Ceraolo Dmitrii Kharlapenko Amélie Reymond Rada Mihalcea Mrinmaya Sachan Bernhard Schölkopf Zhijing Jin Zhijing Jin CML 37 2 0 30 May 2024
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment Shenao Zhang Donghan Yu Hiteshi Sharma Ziyi Yang Shuohang Wang Hany Hassan Zhaoran Wang LRM 48 28 0 29 May 2024
Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization Yuanpu Cao Tianrong Zhang Bochuan Cao Ziyi Yin Lu Lin Fenglong Ma Jinghui Chen LLMSV 37 20 0 28 May 2024
Zamba: A Compact 7B SSM Hybrid Model Paolo Glorioso Quentin G. Anthony Yury Tokpanov James Whittington Jonathan Pilault Adam Ibrahim Beren Millidge 30 45 0 26 May 2024
Automatically Generating Numerous Context-Driven SFT Data for LLMs across Diverse Granularity Shanghaoran Quan 43 4 0 26 May 2024
Bitune: Bidirectional Instruction-Tuning D. J. Kopiczko Tijmen Blankevoort Yuki Markus Asano 35 2 0 23 May 2024
PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression Vladimir Malinovskii Denis Mazur Ivan Ilin Denis Kuznedelev Konstantin Burlachenko Kai Yi Dan Alistarh Peter Richtárik MQ 37 19 0 23 May 2024
Large Language Models Meet NLP: A Survey Libo Qin Qiguang Chen Xiachong Feng Yang Wu Yongheng Zhang Hai-Tao Zheng Min Li Wanxiang Che Philip S. Yu ALM LM&MA ELM LRM 52 48 0 21 May 2024
SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling Xingzhou Lou Junge Zhang Jian Xie Lifeng Liu Dong Yan Kaiqi Huang 45 11 0 21 May 2024
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding Zhiyuan Liu An Zhang Hao Fei Enzhi Zhang Xiang Wang Kenji Kawaguchi Tat-Seng Chua 60 18 0 21 May 2024
Multiple-Choice Questions are Efficient and Robust LLM Evaluators Ziyin Zhang Zhaokun Jiang Lizhen Xu Hong-ping Hao Rui Wang 19 12 0 20 May 2024
MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation Jianbo Dai Jianqiao Lu Yunlong Feng Rongju Ruan Ming Cheng Haochen Tan Zhijiang Guo ELM LRM 44 12 0 19 May 2024
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers Rya Sanovar Srikant Bharadwaj Renée St. Amant Victor Rühle Saravan Rajmohan 61 6 0 17 May 2024