WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in
the Wild

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

7 June 2024

Bill Yuchen Lin

Khyathi Raghavi Chandu

Faeze Brahman

Abhilasha Ravichander

Valentina Pyatkin

Yejin Choi

Papers citing "WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild"

8 / 58 papers shown

Title
EXAONE 3.0 7.8B Instruction Tuned Language Model LG AI Research : Soyoung An Kyunghoon Bae Eunbi Choi ... Boseong Seo Sihoon Yang Heuiyeen Yeen Kyungjae Yoo Hyeongu Yun ELM ALM 52 10 0 07 Aug 2024
Compare without Despair: Reliable Preference Evaluation with Generation Separability Sayan Ghosh Tejas Srinivasan Swabha Swayamdipta 48 2 0 02 Jul 2024
From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline Tianle Li Wei-Lin Chiang Evan Frick Lisa Dunlap Tianhao Wu Banghua Zhu Joseph E. Gonzalez Ion Stoica ALM 36 127 0 17 Jun 2024
SimPO: Simple Preference Optimization with a Reference-Free Reward Yu Meng Mengzhou Xia Danqi Chen 68 350 0 23 May 2024
DOLOMITES: Domain-Specific Long-Form Methodical Tasks Chaitanya Malaviya Priyanka Agrawal Kuzman Ganchev Pranesh Srinivasan Fantine Huot Jonathan Berant Mark Yatskar Dipanjan Das Mirella Lapata Chris Alberti 40 6 0 09 May 2024
WildChat: 1M ChatGPT Interaction Logs in the Wild Wenting Zhao Xiang Ren Jack Hessel Claire Cardie Yejin Choi Yuntian Deng 44 174 0 02 May 2024
Instruction Tuning for Large Language Models: A Survey Shengyu Zhang Linfeng Dong Xiaoya Li Sen Zhang Xiaofei Sun ... Jiwei Li Runyi Hu Tianwei Zhang Fei Wu Guoyin Wang LM&MA 24 538 0 21 Aug 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 328 4,077 0 24 May 2022