Dynamic Human Evaluation for Relative Model Comparisons

15 December 2021

Papers citing "Dynamic Human Evaluation for Relative Model Comparisons"

4 / 4 papers shown

Title
Which Prompts Make The Difference? Data Prioritization For Efficient Human LLM Evaluation M. Boubdir Edward Kim Beyza Ermis Marzieh Fadaee Sara Hooker ALM 33 18 0 22 Oct 2023
Toward More Effective Human Evaluation for Machine Translation Belén Saldías George F. Foster Markus Freitag Qijun Tan 18 10 0 11 Apr 2022
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics Sebastian Gehrmann Tosin P. Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Aremu Anuoluwapo ... Nishant Subramani Wei-ping Xu Diyi Yang Akhila Yerukola Jiawei Zhou VLM 260 285 0 02 Feb 2021
With Little Power Comes Great Responsibility Dallas Card Peter Henderson Urvashi Khandelwal Robin Jia Kyle Mahowald Dan Jurafsky 230 115 0 13 Oct 2020