Title
LookAlike: Consistent Distractor Generation in Math MCQs Nisarg Parikh Nigel Fernandez Alexander Scarlatos Simon Woodhead Andrew S. Lan 50 0 0 03 May 2025
Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-following Ability Jiaming Wang Yunke Zhao Peng Ding Jun Kuang Zongyu Wang Xuezhi Cao Xunliang Cai 55 0 0 30 Apr 2025
Order Matters: Investigate the Position Bias in Multi-constraint Instruction Following Jie Zeng Qianyu He Qingyu Ren Jiaqing Liang Yanghua Xiao Weikang Zhou Zeye Sun Fei Yu 86 0 0 24 Feb 2025
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models Jiale Cheng Xiao-Chang Liu C. Wang Xiaotao Gu Yaojie Lu Dan Zhang Yuxiao Dong J. Tang Hongning Wang Minlie Huang LRM 126 3 0 16 Dec 2024
Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks Rudra Murthy Prince Kumar Praveen Venkateswaran Danish Contractor KELM ALM ELM 31 1 0 16 Oct 2024
TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation Jonathan Cook Tim Rocktaschel Jakob Foerster Dennis Aumiller Alex Wang ALM 31 10 0 04 Oct 2024
CFBench: A Comprehensive Constraints-Following Benchmark for LLMs Leo Micklem Yan-Bin Shen Wenjing Luo Yan Zhang Hao Liang ... Weipeng Chen Bin Cui Blair Thornton Wentao Zhang Zenan Zhou ELM 81 16 0 02 Aug 2024
LLM-SQL-Solver: Can LLMs Determine SQL Equivalence? Fuheng Zhao Lawrence Lim Ishtiyaque Ahmad D. Agrawal A. El Abbadi Amr El Abbadi 65 9 0 16 Dec 2023
AlignBench: Benchmarking Chinese Alignment of Large Language Models Xiao Liu Xuanyu Lei Sheng-Ping Wang Yue Huang Zhuoer Feng ... Hongning Wang Jing Zhang Minlie Huang Yuxiao Dong Jie Tang ELM LM&MA ALM 125 43 0 30 Nov 2023
CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models Jinfeng Zhou Zhuang Chen Dazhen Wan Bosi Wen Yi Song ... Wenjing Hou Yijia Zhang Yuxiao Dong Jie Tang Minlie Huang LLMAG AI4CE OSLM 98 24 0 28 Nov 2023
Can Large Language Models Understand Real-World Complex Instructions? Qi He Jie Zeng Wenhao Huang Lina Chen Jin Xiao ... Shisong Chen Yikai Zhang Zhouhong Gu Jiaqing Liang Yanghua Xiao ALM LRM ELM 95 52 0 17 Sep 2023
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? Xiangru Tang Yiming Zong Jason Phang Yilun Zhao Wangchunshu Zhou Arman Cohan Mark B. Gerstein LMTD ELM ALM 42 8 0 16 Sep 2023
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 250 1,073 0 05 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022
On Compositional Generalization of Neural Machine Translation Yafu Li Yongjing Yin Yulong Chen Yue Zhang 156 44 0 31 May 2021