Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-Following Ability

v1v2v3v4 (latest)

Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-Following Ability

30 April 2025

ArXiv (abs)PDF HTML

Papers citing "Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-Following Ability"

7 / 7 papers shown

Title
Financial Statement Analysis with Large Language Models Alex G. Kim Maximilian Muhn Valeri V. Nikolaev AIFin 98 27 0 24 Feb 2025
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following Jinnan Li Jinzhe Li Yue Wang Yi-Ju Chang Yuan Wu 68 2 0 20 Feb 2025
Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators Yann Dubois Balázs Galambosi Percy Liang Tatsunori Hashimoto ALM 125 400 0 06 Apr 2024
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models Yuxin Jiang Yufei Wang Xingshan Zeng Wanjun Zhong Liangyou Li Fei Mi Lifeng Shang Xin Jiang Qun Liu Wei Wang ALM 79 32 0 31 Oct 2023
Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models Yuchong Sun Che Liu Kun Zhou Jinwen Huang Ruihua Song Xin Zhao Fuzheng Zhang Di Zhang Kun Gai LRM 50 11 0 11 Oct 2023
COLLIE: Systematic Construction of Constrained Text Generation Tasks Shunyu Yao Howard Chen Austin W. Hanjie Runzhe Yang Karthik Narasimhan 94 35 0 17 Jul 2023
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 490 10,496 0 17 Jun 2021