Instruction-Following Evaluation for Large Language Models

14 November 2023

Papers citing "Instruction-Following Evaluation for Large Language Models"

47 / 47 papers shown

Title
Large Language Models' Reasoning Stalls: An Investigation into the Capabilities of Frontier Models Lachlan McGinness Peter Baumgartner ReLM LRM ELM 32 0 0 26 May 2025
LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models Fengqi Zhu Rongzhen Wang Shen Nie Xiaolu Zhang Chunwei Wu ... Jun Zhou Jianfei Chen Yankai Lin Ji-Rong Wen Chongxuan Li 121 0 0 25 May 2025
RECAST: Strengthening LLMs' Complex Instruction Following with Constraint-Verifiable Data Wenhao Liu Zhengkang Guo Mingchen Xie Jingwen Xu Zisu Huang ... Changze Lv He-Da Wang Hu Yao Xiaoqing Zheng Xuanjing Huang 67 0 0 25 May 2025
AI-Augmented LLMs Achieve Therapist-Level Responses in Motivational Interviewing Yinghui Huang Yuxuan Jiang Hui Liu Yixin Cai Weiqing Li Xiangen Hu AI4MH 135 0 0 23 May 2025
L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models Xiaohao Liu Xiaobo Xia Weixiang Zhao Manyi Zhang Xianzhi Yu Xiu Su Shuo Yang See-Kiong Ng Tat-Seng Chua KELM LRM 60 0 0 23 May 2025
Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models Chi-Yuan Hsiao Ke-Han Lu Kai-Wei Chang Chih-Kai Yang Wei-Chih Chen Hung-yi Lee CLL MoMe 112 0 0 23 May 2025
Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation Berkcan Kapusuzoglu Supriyo Chakraborty Chia-Hsuan Lee Sambit Sahu 55 0 0 16 May 2025
When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs Xiaomin Li Zhou Yu Zhiwei Zhang Xupeng Chen Ziji Zhang Yingying Zhuang Narayanan Sadagopan Anurag Beniwal LRM 57 1 0 16 May 2025
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale Yunjie Ji Xiaoyu Tian Sitong Zhao Haotian Wang Shuaiting Chen Yiping Peng Han Zhao Xiangang Li ReLM LRM VLM 80 1 0 13 May 2025
Semantic Retention and Extreme Compression in LLMs: Can We Have Both? Stanislas Laborde Martin Cousseau Antoun Yaacoub Lionel Prevost MQ 52 0 0 12 May 2025
Stability in Single-Peaked Strategic Resource Selection Games Henri Zeiler 86 3 0 09 May 2025
Security Steerability is All You Need Itay Hazan Idan Habler Ron Bitton Itsik Mantin AAML 120 0 0 28 Apr 2025
Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators Yilun Zhou Austin Xu Peifeng Wang Caiming Xiong Shafiq Joty ELM ALM LRM 85 3 0 21 Apr 2025
MM-IFEngine: Towards Multimodal Instruction Following Shengyuan Ding Shenxi Wu Xiangyu Zhao Yuhang Zang Haodong Duan Xiaoyi Dong Pan Zhang Yuhang Cao Dahua Lin Jiaqi Wang OffRL 79 5 0 10 Apr 2025
Universal Collection of Euclidean Invariants between Pairs of Position-Orientations Gijs Bellaard B. Smets R. Duits 79 0 0 04 Apr 2025
Layers at Similar Depths Generate Similar Activations Across LLM Architectures Christopher Wolfram Aaron Schein 65 1 0 03 Apr 2025
Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning J. Lin Tian Wang Kun Qian LRM 85 5 0 31 Mar 2025
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild Weihao Zeng Yuzhen Huang Qian Liu Wei Liu Keqing He Zejun Ma Junxian He OffRL ReLM LRM 113 85 0 24 Mar 2025
Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs Ling Team B. Zeng Chenyu Huang Chao Zhang Changxin Tian ... Zhaoxin Huan Zujie Wen Zhenhang Sun Zhuoxuan Du Z. He MoE ALM 131 3 0 07 Mar 2025
Training a Generally Curious Agent Fahim Tajwar Yiding Jiang Abitha Thankaraj Sumaita Sadia Rahman J. Zico Kolter Jeff Schneider Ruslan Salakhutdinov 155 1 0 24 Feb 2025
SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters Teng Xiao Yige Yuan Ziyang Chen Mingxiao Li Shangsong Liang Zhaochun Ren V. Honavar 175 8 0 21 Feb 2025
KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse Jingbo Yang Bairu Hou Wei Wei Yujia Bao Shiyu Chang VLM 113 2 0 21 Feb 2025
Mind the Gap! Choice Independence in Using Multilingual LLMs for Persuasive Co-Writing Tasks in Different Languages Shreyan Biswas Alexander Erlei U. Gadiraju 146 4 0 13 Feb 2025
Typhoon T1: An Open Thai Reasoning Model Pittawat Taveekitworachai Potsawee Manakul Kasima Tharnpipitchai Kunat Pipatanakul OffRL LRM 144 0 0 13 Feb 2025
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models Xu Huang Wenhao Zhu Hanxu Hu Zeang Sheng Lei Li Shujian Huang Fei Yuan ELM 94 4 0 11 Feb 2025
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations Kaixuan Huang Jiacheng Guo Zihao Li X. Ji Jiawei Ge ... Yangsibo Huang Chi Jin Xinyun Chen Chiyuan Zhang Mengdi Wang AAML LRM 126 12 0 10 Feb 2025
StringLLM: Understanding the String Processing Capability of Large Language Models Xilong Wang Hao Fu Jindong Wang Neil Zhenqiang Gong 121 0 0 28 Jan 2025
Smoothed Embeddings for Robust Language Models Ryo Hase Md Rafi Ur Rashid Ashley Lewis Jing Liu T. Koike-Akino K. Parsons Yanjie Wang AAML 71 2 0 27 Jan 2025
360Brew: A Decoder-only Foundation Model for Personalized Ranking and Recommendation Hamed Firooz Maziar Sanjabi Adrian Englhardt Aman Gupta Ben Levine ... Xiaoling Zhai Ya Xu Yu Wang Yun Dai Yun Dai ALM 85 4 0 27 Jan 2025
Aligning Instruction Tuning with Pre-training Yiming Liang Tianyu Zheng Xinrun Du Ge Zhang Qingbin Liu ... Zhaoxiang Zhang Wenhao Huang Jiajun Zhang Xiang Yue Jiajun Zhang 120 2 0 16 Jan 2025
Sloth: scaling laws for LLM skills to predict multi-benchmark performance across families Felipe Maia Polo Shivalika Singh Leshem Choshen Yuekai Sun Mikhail Yurochkin 134 7 0 09 Dec 2024
Yi-Lightning Technical Report 01. AI : Alan Wake Albert Wang Bei Chen ... Yuxuan Sha Zhaodong Yan Zhiyuan Liu Zirui Zhang Zonghong Dai OSLM 113 3 0 02 Dec 2024
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization Weiyun Wang Zhe Chen Wenhai Wang Yue Cao Yangzhou Liu ... Jinguo Zhu X. Zhu Lewei Lu Yu Qiao Jifeng Dai LRM 90 65 1 15 Nov 2024
UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function Zhichao Wang Bin Bi Z. Zhu Xiangbo Mao Jun Wang Shiyu Wang CLL 44 1 0 28 Oct 2024
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback Lester James V. Miranda Yizhong Wang Yanai Elazar Sachin Kumar Valentina Pyatkin Faeze Brahman Noah A. Smith Hannaneh Hajishirzi Pradeep Dasigi 88 9 0 24 Oct 2024
An Intelligent Agentic System for Complex Image Restoration Problems Kaiwen Zhu Jinjin Gu Zhiyuan You Yu Qiao Chao Dong 62 7 0 23 Oct 2024
Compute-Constrained Data Selection Junjie Oscar Yin Alexander M. Rush 89 1 0 21 Oct 2024
Do LLMs "know" internally when they follow instructions? Juyeon Heo Christina Heinze-Deml Oussama Elachqar Shirley Ren Udhay Nallasamy Andy Miller Kwan Ho Ryan Chan Jaya Narain 79 8 0 18 Oct 2024
Do LLMs estimate uncertainty well in instruction-following? Juyeon Heo Miao Xiong Christina Heinze-Deml Jaya Narain ELM 81 3 0 18 Oct 2024
Improving Instruction-Following in Language Models through Activation Steering Alessandro Stolfo Vidhisha Balachandran Safoora Yousefi Eric Horvitz Besmira Nushi LLMSV 80 21 0 15 Oct 2024
LUK: Empowering Log Understanding with Expert Knowledge from Large Language Models Lipeng Ma Weidong Yang Sihang Jiang Ben Fei Mingjie Zhou Shuhao Li Bo Xu Bo Xu Yanghua Xiao 94 0 0 03 Sep 2024
Can Large Language Models Understand Symbolic Graphics Programs? Zeju Qiu Weiyang Liu Haiwen Feng Zhen Liu Tim Z. Xiao Katherine M. Collins J. Tenenbaum Adrian Weller Michael J. Black Bernhard Schölkopf 81 12 0 15 Aug 2024
Training on the Test Task Confounds Evaluation and Emergence Ricardo Dominguez-Olmedo Florian E. Dorner Moritz Hardt ELM 84 7 1 10 Jul 2024
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs Yusu Qian Hanrong Ye J. Fauconnier Peter Grasch Yinfei Yang Zhe Gan 132 16 0 01 Jul 2024
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning Yuheng Zhang Dian Yu Baolin Peng Linfeng Song Ye Tian Mingyue Huo Nan Jiang Haitao Mi Dong Yu 113 16 0 30 Jun 2024
CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery Xiaoshuai Song Muxi Diao Guanting Dong Zhengyang Wang Yujia Fu ... Yejie Wang Zhuoma Gongque Jianing Yu Qiuna Tan Weiran Xu ELM 82 12 0 12 Jun 2024
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models Seungone Kim Juyoung Suk Ji Yong Cho Shayne Longpre Chaeeun Kim ... Sean Welleck Graham Neubig Moontae Lee Kyungjae Lee Minjoon Seo ELM ALM LM&MA 130 36 0 09 Jun 2024