When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour

15 November 2023

Papers citing "When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour"

7 / 7 papers shown

Title
Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups Rijul Magu Arka Dutta Sean Kim Ashiqur R. KhudaBukhsh Munmun De Choudhury 35 0 0 08 Apr 2025
Telephone Surveys Meet Conversational AI: Evaluating a LLM-Based Telephone Survey System at Scale Max M. Lang Sol Eskenazi LM&MA 83 0 0 27 Feb 2025
Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment Chaoqi Wang Zhuokai Zhao Yibo Jiang Zhaorun Chen Chen Zhu ... Jiayi Liu Lizhu Zhang Xiangjun Fan Hao Ma Sinong Wang 82 4 0 17 Jan 2025
Evaluating the Prompt Steerability of Large Language Models Erik Miehling Michael Desmond Karthikeyan N. Ramamurthy Elizabeth M. Daly Pierre Dognin Jesus Rios Djallel Bouneffouf Miao Liu LLMSV 92 3 0 19 Nov 2024
AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents Zhe Su Xuhui Zhou Sanketh Rangreji Anubha Kabra Julia Mendelsohn Faeze Brahman Maarten Sap LLMAG 106 3 0 13 Sep 2024
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 411 12,150 0 04 Mar 2022
Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity Yao Lu Max Bartolo Alastair Moore Sebastian Riedel Pontus Stenetorp AILaw LRM 281 1,124 0 18 Apr 2021