Title
Fast RoPE Attention: Combining the Polynomial Method and Fast Fourier Transform Josh Alman Zhao Song 27 12 0 17 May 2025
Challenging GPU Dominance: When CPUs Outperform for On-Device LLM Inference Haolin Zhang Jeff Huang 35 0 0 09 May 2025
Collaborative Learning of On-Device Small Model and Cloud-Based Large Model: Advances and Future Directions Chaoyue Niu Yucheng Ding Junhui Lu Zhengxiang Huang Hang Zeng Yutong Dai Xuezhen Tu Chengfei Lv Fan Wu Guihai Chen 35 1 0 17 Apr 2025
Encrypted Prompt: Securing LLM Applications Against Unauthorized Actions Shih-Han Chan AAML 60 0 0 29 Mar 2025
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts? Aabid Karim Abdul Karim Bhoomika Lohana Matt Keon Jaswinder Singh A. Sattar 54 1 0 23 Mar 2025
A Novel Hat-Shaped Device-Cloud Collaborative Inference Framework for Large Language Models Zuan Xie Yang Xu Hongli Xu Yunming Liao Zhiwei Yao 56 0 0 23 Mar 2025
ROMA: a Read-Only-Memory-based Accelerator for QLoRA-based On-Device LLM Wenqiang Wang Yijia Zhang Zikai Zhang Guanting Huo Hao Liang Shijie Cao Ningyi Xu 45 0 0 17 Mar 2025
IDEA Prune: An Integrated Enlarge-and-Prune Pipeline in Generative Language Model Pretraining Yixiao Li Xianzhi Du Ajay Jaiswal Tao Lei T. Zhao Chong-Jun Wang Jianyu Wang 50 1 0 07 Mar 2025
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance Chenghua Huang Lu Wang Fangkai Yang Pu Zhao Zechao Li Qingwei Lin Dongmei Zhang Saravan Rajmohan Qi Zhang OffRL 57 1 0 24 Feb 2025
Minions: Cost-efficient Collaboration Between On-device and Cloud Language Models A. Narayan D. Biderman Sabri Eyuboglu Avner May Scott W. Linderman James Zou Christopher Ré 63 1 0 21 Feb 2025
Implicit Bias in Matrix Factorization and its Explicit Realization in a New Architecture Yikun Hou Suvrit Sra A. Yurtsever 34 0 0 28 Jan 2025
Fast Gradient Computation for RoPE Attention in Almost Linear Time Yifang Chen Jiayan Huo Xiaoyu Li Yingyu Liang Zhenmei Shi Zhao Song 71 12 0 03 Jan 2025
Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs Aldo Pareja Nikhil Shivakumar Nayak Hao Wang Krishnateja Killamsetty Shivchander Sudalairaj ... Guangxuan Xu Kai Xu Ligong Han Luke Inglis Akash Srivastava 96 6 0 17 Dec 2024
Quantization-Aware Imitation-Learning for Resource-Efficient Robotic Control Seongmin Park Hyungmin Kim Wonseok Jeon Juyoung Yang Byeongwook Jeon Yoonseon Oh Jungwook Choi 93 1 0 02 Dec 2024
WDMoE: Wireless Distributed Mixture of Experts for Large Language Models Nan Xue Yaping Sun Zhiyong Chen Meixia Tao Xiaodong Xu Liang Qian Shuguang Cui Wenjun Zhang Ping Zhang MoE 39 0 0 11 Nov 2024
MedMobile: A mobile-sized language model with expert-level clinical capabilities Krithik Vishwanath Jaden Stryker Anton Alaykin Daniel Alexander Alber Eric Karl Oermann LM&MA MedIm LRM 48 2 0 11 Oct 2024
ToolBridge: An Open-Source Dataset to Equip LLMs with External Tool Capabilities Zhenchao Jin Mengchen Liu Dongdong Chen Lingting Zhu Yunsheng Li Lequan Yu KELM 31 0 0 08 Oct 2024
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel ... Haoxuan You Zirui Wang Afshin Dehghan Peter Grasch Yinfei Yang VLM MLLM 42 32 1 30 Sep 2024
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling Hritik Bansal Arian Hosseini Rishabh Agarwal Vinh Q. Tran Mehran Kazemi SyDa OffRL LRM 45 39 0 29 Aug 2024
Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler Songlin Yang Matthew Stallone Mayank Mishra Gaoyuan Zhang Shawn Tan Aditya Prasad Adriana Meza Soria David D. Cox Yikang Shen 39 12 0 23 Aug 2024
Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead Rickard Brüel-Gabrielsson Jiacheng Zhu Onkar Bhardwaj Leshem Choshen Kristjan Greenewald Mikhail Yurochkin Justin Solomon 51 5 0 17 Jun 2024
DataComp-LM: In search of the next generation of training sets for language models Jeffrey Li Alex Fang Georgios Smyrnis Maor Ivgi Matt Jordan ... Alexandros G. Dimakis Y. Carmon Achal Dave Ludwig Schmidt Vaishaal Shankar ELM 46 82 0 17 Jun 2024
FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information Dongseong Hwang ODL 37 5 0 21 May 2024
Recurrent Drafter for Fast Speculative Decoding in Large Language Models Aonan Zhang Chong-Jun Wang Yi Wang Xuanyu Zhang Yunfei Cheng 37 17 0 14 Mar 2024
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned Deep Ganguli Liane Lovitt John Kernion Amanda Askell Yuntao Bai ... Nicholas Joseph Sam McCandlish C. Olah Jared Kaplan Jack Clark 234 449 0 23 Aug 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 375 12,081 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 447 8,650 0 28 Jan 2022