Benchmarking Large Language Models on Controllable Generation under Diversified Instructions

1 January 2024

Benfeng Xu

Papers citing "Benchmarking Large Language Models on Controllable Generation under Diversified Instructions"

23 / 23 papers shown

Title
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering Sher Badshah Hassan Sajjad 68 1 0 11 Mar 2025
XIFBench: Evaluating Large Language Models on Multilingual Instruction Following Zhoujun Li Kehai Chen Yunfei Long X. Bai Yaoyin Zhang Xuchen Wei J. Li Min Zhang ELM 69 0 0 10 Mar 2025
Learning to Generate Structured Output with Schema Reinforcement Learning Yaojie Lu Haolun Li Xin Cong Zhong Zhang Yesai Wu Yankai Lin Zhiyuan Liu Fangming Liu Maosong Sun 54 1 0 26 Feb 2025
Zero-Shot Strategies for Length-Controllable Summarization Fabian Retkowski A. Waibel 59 3 0 31 Dec 2024
Divide-Verify-Refine: Can LLMs Self-Align with Complex Instructions? Xianren Zhang Xianfeng Tang Hui Liu Zongyu Wu Qi He Dongwon Lee Suhang Wang ALM 43 0 0 16 Oct 2024
PersoBench: Benchmarking Personalized Response Generation in Large Language Models Saleh Afzoon Usman Naseem Amin Beheshti Zahra Jamali 39 2 0 04 Oct 2024
Preference-Guided Reflective Sampling for Aligning Language Models Hai Ye Hwee Tou Ng 37 4 0 22 Aug 2024
Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text Sher Badshah Hassan Sajjad ELM 40 9 0 17 Aug 2024
LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs Do Xuan Long Hai Nguyen Ngoc Tiviatis Sim Hieu Dao Chenyu You Kenji Kawaguchi Nancy F. Chen Min-Yen Kan 34 8 0 16 Aug 2024
Benchmarking Complex Instruction-Following with Multiple Constraints Composition Bosi Wen Pei Ke Xiaotao Gu Lindong Wu Hao Huang ... Jiaxin Xu Yiming Liu Jie Tang Hongning Wang Minlie Huang CoGe 65 35 0 04 Jul 2024
The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models Xinyi Chen Baohao Liao Jirui Qi Panagiotis Eustratiadis Christof Monz Arianna Bisazza Maarten de Rijke ALM ELM LRM 36 5 0 28 Jun 2024
RuleR: Improving LLM Controllability by Rule-based Data Recycling Ming Li Han Chen Chenguang Wang Dang Nguyen Dianqi Li Dinesh Manocha 33 7 0 22 Jun 2024
GLOBE: A High-quality English Corpus with Global Accents for Zero-shot Speaker Adaptive Text-to-Speech Wenbin Wang Yang Song Sanjay Jha 44 6 0 21 Jun 2024
On the Role of Entity and Event Level Conceptualization in Generalizable Reasoning: A Survey of Tasks, Methods, Applications, and Future Directions Weiqi Wang Tianqing Fang Haochen Shi Baixuan Xu Wenxuan Ding ... Wei Fan Jiaxin Bai Haoran Li Xin Liu Yangqiu Song LRM 34 3 0 16 Jun 2024
MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases Rithesh Murthy Liangwei Yang Juntao Tan Tulika Awalgaonkar Yilun Zhou ... Zuxin Liu Ming Zhu Huan Wang Caiming Xiong Silvio Savarese 59 5 0 12 Jun 2024
MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset Weiqi Wang Yangqiu Song LRM 35 9 0 04 Jun 2024
From Complex to Simple: Enhancing Multi-Constraint Complex Instruction Following Ability of Large Language Models Qi He Jie Zeng Qianxi He Jiaqing Liang Yanghua Xiao 37 10 0 24 Apr 2024
FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability Congying Xia Chen Xing Jiangshu Du Xinyi Yang Yihao Feng Ran Xu Wenpeng Yin Caiming Xiong ALM 35 42 0 28 Feb 2024
Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents Zelong Li Wenyue Hua Hao Wang He Zhu Yongfeng Zhang LLMAG 74 19 0 01 Feb 2024
Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models Xiang Chen Xiaojun Wan 27 0 0 25 Oct 2023
Controlled Text Generation with Natural Language Instructions Wangchunshu Zhou Yuchen Eleanor Jiang Ethan Gotlieb Wilcox Ryan Cotterell Mrinmaya Sachan 160 84 0 27 Apr 2023
A Distributional Lens for Multi-Aspect Controllable Text Generation Yuxuan Gu Xiaocheng Feng Sicheng Ma Lingyuan Zhang Heng Gong Bing Qin 115 36 0 06 Oct 2022
The Vendi Score: A Diversity Evaluation Metric for Machine Learning Dan Friedman Adji Bousso Dieng EGVM 94 112 0 05 Oct 2022