Single-Turn Debate Does Not Help Humans Answer Hard
Reading-Comprehension Questions

Single-Turn Debate Does Not Help Humans Answer Hard Reading-Comprehension Questions

11 April 2022

Papers citing "Single-Turn Debate Does Not Help Humans Answer Hard Reading-Comprehension Questions"

15 / 15 papers shown

Title
An alignment safety case sketch based on debate Marie Davidsen Buhl Jacob Pfau Benjamin Hilton Geoffrey Irving 38 0 0 06 May 2025
Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning Jingtian Wu Claire Cardie LRM 34 0 0 14 Apr 2025
Training Language Models to Win Debates with Self-Play Improves Judge Accuracy Samuel Arnesen David Rein Julian Michael ELM 43 3 0 25 Sep 2024
How Susceptible are LLMs to Influence in Prompts? Sotiris Anagnostidis Jannis Bulian LRM 40 16 0 17 Aug 2024
On scalable oversight with weak LLMs judging strong LLMs Zachary Kenton Noah Y. Siegel János Kramár Jonah Brown-Cohen Samuel Albanie ... Rishabh Agarwal David Lindner Yunhao Tang Noah D. Goodman Rohin Shah ELM 43 31 0 05 Jul 2024
Playing Large Games with Oracles and AI Debate Xinyi Chen Angelica Chen Dean Foster Elad Hazan 38 3 0 08 Dec 2023
Large Language Models Help Humans Verify Truthfulness -- Except When They Are Convincingly Wrong Chenglei Si Navita Goyal Sherry Tongshuang Wu Chen Zhao Shi Feng Hal Daumé Jordan L. Boyd-Graber LRM 47 39 0 19 Oct 2023
In Search of Verifiability: Explanations Rarely Enable Complementary Performance in AI-Advised Decision Making Raymond Fok Daniel S. Weld 29 61 0 12 May 2023
Measuring Progress on Scalable Oversight for Large Language Models Sam Bowman Jeeyoon Hyun Ethan Perez Edwin Chen Craig Pettit ... Tristan Hume Yuntao Bai Zac Hatfield-Dodds Benjamin Mann Jared Kaplan ALM ELM 28 123 0 04 Nov 2022
Two-Turn Debate Doesn't Help Humans Answer Hard Reading Comprehension Questions Alicia Parrish H. Trivedi Nikita Nangia Vishakh Padmakumar Jason Phang Amanpreet Singh Saimbhi Sam Bowman 13 11 0 19 Oct 2022
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 236 506 0 28 Sep 2022
The Alignment Problem from a Deep Learning Perspective Richard Ngo Lawrence Chan Sören Mindermann 68 183 0 30 Aug 2022
Self-critiquing models for assisting human evaluators William Saunders Catherine Yeh Jeff Wu Steven Bills Ouyang Long Jonathan Ward Jan Leike ALM ELM 29 282 0 12 Jun 2022
e-SNLI: Natural Language Inference with Natural Language Explanations Oana-Maria Camburu Tim Rocktaschel Thomas Lukasiewicz Phil Blunsom LRM 287 623 0 04 Dec 2018
AI safety via debate G. Irving Paul Christiano Dario Amodei 204 201 0 02 May 2018