Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment

Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment

14 November 2023

Lidiya Murakhovs'ka

Papers citing "Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment"

8 / 8 papers shown

Title
Teaching Models to Balance Resisting and Accepting Persuasion Elias Stengel-Eskin Peter Hase Joey Tianyi Zhou MU 55 5 0 18 Oct 2024
Towards Understanding Sycophancy in Language Models Mrinank Sharma Meg Tong Tomasz Korbak David Duvenaud Amanda Askell ... Oliver Rausch Nicholas Schiefer Da Yan Miranda Zhang Ethan Perez 281 226 0 20 Oct 2023
Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles Kung-Hsiang Huang Philippe Laban Alexander R. Fabbri Prafulla Kumar Choubey Shafiq Joty Caiming Xiong Chien-Sheng Wu 58 30 0 17 Sep 2023
Constitutional AI: Harmlessness from AI Feedback Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell John Kernion ... Dario Amodei Nicholas Joseph Sam McCandlish Tom B. Brown Jared Kaplan SyDa MoMe 168 1,603 0 15 Dec 2022
Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest Jack Hessel Ana Marasović Jena D. Hwang Lillian Lee Jeff Da Rowan Zellers Robert Mankoff Yejin Choi VLM 68 89 0 13 Sep 2022
PaLM: Scaling Language Modeling with Pathways Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma Gaurav Mishra ... Kathy Meier-Hellstern Douglas Eck J. Dean Slav Petrov Noah Fiedel PILM LRM 420 6,202 0 05 Apr 2022
BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions Christopher Clark Kenton Lee Ming-Wei Chang Tom Kwiatkowski Michael Collins Kristina Toutanova 205 1,511 0 24 May 2019
Complex Sequential Question Answering: Towards Learning to Converse Over Linked Question Answer Pairs with a Knowledge Graph Amrita Saha Vardaan Pahuja Mitesh M. Khapra Karthik Sankaranarayanan A. Chandar 64 200 0 31 Jan 2018