Simple synthetic data reduces sycophancy in large language models

7 August 2023

Papers citing "Simple synthetic data reduces sycophancy in large language models"

50 / 56 papers shown

Title
From Assistants to Adversaries: Exploring the Security Risks of Mobile LLM Agents Liangxuan Wu Chao Wang Tianming Liu Yanjie Zhao Haoyu Wang AAML 9 0 0 19 May 2025
Truth Neurons Haohang Li Yupeng Cao Yangyang Yu Jordan W. Suchow Zining Zhu HILM MILM KELM 3 0 0 18 May 2025
Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations Yiyou Sun Y. Gai Lijie Chen Abhilasha Ravichander Yejin Choi D. Song HILM 57 0 0 17 Apr 2025
Out of Style: RAG's Fragility to Linguistic Variation Tianyu Cao Neel Bhandari Akhila Yerukola Akari Asai Maarten Sap 32 0 0 11 Apr 2025
Don't Let It Hallucinate: Premise Verification via Retrieval-Augmented Logical Reasoning Yuehan Qin Shawn Li Yi Nian Xinyan Velocity Yu Yue Zhao Xuezhe Ma HILM LRM 37 0 0 08 Apr 2025
From Intuition to Understanding: Using AI Peers to Overcome Physics Misconceptions Ruben Weijers Denton Wu Hannah Betts Tamara Jacod Yuxiang Guan ... William Delooze Reihaneh Rabbany Ying Wu Jean-Francois Godbout Kellin Pelrine 48 0 0 01 Apr 2025
Can (A)I Change Your Mind? Miriam Havin Timna Wharton Kleinman Moran Koren Yaniv Dover Ariel Goldstein 58 0 0 03 Mar 2025
Linear Probe Penalties Reduce LLM Sycophancy Henry Papadatos Rachel Freedman LLMSV 69 0 0 01 Dec 2024
Sycophancy in Large Language Models: Causes and Mitigations Lars Malmqvist 81 7 0 22 Nov 2024
Can Multimodal Large Language Model Think Analogically? Diandian Guo Cong Cao Fangfang Yuan Dakui Wang Wei Ma Yanbing Liu Jianhui Fu LRM 37 0 0 02 Nov 2024
Are UFOs Driving Innovation? The Illusion of Causality in Large Language Models María Victoria Carro Francisca Gauna Selasco Denise Alejandra Mester Mario Leiva LRM 28 0 0 15 Oct 2024
SoK: Towards Security and Safety of Edge AI Tatjana Wingarz Anne Lauscher Janick Edinger Dominik Kaaser Stefan Schulte Mathias Fischer 33 0 0 07 Oct 2024
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" Yifei Ming Senthil Purushwalkam Shrey Pandit Zixuan Ke Xuan-Phi Nguyen Caiming Xiong Chenyu You HILM 112 16 0 30 Sep 2024
A Survey on the Honesty of Large Language Models Siheng Li Cheng Yang Taiqiang Wu Chufan Shi Yuji Zhang ... Jie Zhou Yujiu Yang Ngai Wong Xixin Wu Wai Lam HILM 35 4 0 27 Sep 2024
Federated Large Language Models: Current Progress and Future Directions Yuhang Yao Jianyi Zhang Junda Wu Chengkai Huang Yu Xia ... Ang Li Lina Yao Julian McAuley Yiran Chen Carlee Joe-Wong FedML AIFin 63 8 0 24 Sep 2024
Measuring Human and AI Values Based on Generative Psychometrics with Large Language Models Haoran Ye Yuhang Xie Yuanyi Ren Hanjun Fang Xin Zhang Guojie Song LM&MA 37 1 0 18 Sep 2024
From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning Wei Chen Zhen Huang Liang Xie Binbin Lin Houqiang Li ... Deng Cai Yonggang Zhang Wenxiao Wang Xu Shen Jieping Ye 54 6 0 03 Sep 2024
GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy Jan Batzner Volker Stocker Stefan Schmid Gjergji Kasneci 23 1 0 25 Jul 2024
PersLLM: A Personified Training Approach for Large Language Models Zheni Zeng Jiayi Chen Huimin Chen Yukun Yan Yuxuan Chen Zhenghao Liu Zhiyuan Liu Maosong Sun LLMAG 49 2 0 17 Jul 2024
Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models Yuji Zhang Sha Li Jiateng Liu Pengfei Yu Yi R. Fung Jing Li Manling Li Heng Ji 37 11 0 10 Jul 2024
AI Safety in Generative AI Large Language Models: A Survey Jaymari Chua Yun Yvonna Li Shiyi Yang Chen Wang Lina Yao LM&MA 39 12 0 06 Jul 2024
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph Zhehao Zhang Jiaao Chen Diyi Yang LRM 37 8 0 25 Jun 2024
BeHonest: Benchmarking Honesty in Large Language Models Steffi Chern Zhulin Hu Yuqing Yang Ethan Chern Yuan Guo Jiahe Jin Binjie Wang Pengfei Liu HILM ALM 86 3 0 19 Jun 2024
OpenCapBench: A Benchmark to Bridge Pose Estimation and Biomechanics Yoni Gozlan Antoine Falisse Scott Uhlrich Anthony Gatti Michael Black Akshay Chaudhari 37 4 0 14 Jun 2024
Automatically Generating Numerous Context-Driven SFT Data for LLMs across Diverse Granularity Shanghaoran Quan 43 4 0 26 May 2024
CinePile: A Long Video Question Answering Dataset and Benchmark Ruchit Rawal Khalid Saifullah Ronen Basri David Jacobs Gowthami Somepalli Tom Goldstein 43 39 0 14 May 2024
COBias and Debias: Balancing Class Accuracies for Language Models in Inference Time via Nonlinear Integer Programming Ruixi Lin Yang You 35 0 0 13 May 2024
Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation Ruixin Yang Dheeraj Rajagopal S. Hayati Bin Hu Dongyeop Kang LLMAG 43 4 0 14 Apr 2024
Best Practices and Lessons Learned on Synthetic Data for Language Models Ruibo Liu Jerry W. Wei Fangyu Liu Chenglei Si Yanzhe Zhang ... Steven Zheng Daiyi Peng Diyi Yang Denny Zhou Andrew M. Dai SyDa EgoV 43 86 0 11 Apr 2024
Collaborative Knowledge Infusion for Low-resource Stance Detection Ming Yan Joey Tianyi Zhou Ivor W. Tsang 27 3 0 28 Mar 2024
Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision Zhiqing Sun Longhui Yu Yikang Shen Weiyang Liu Yiming Yang Sean Welleck Chuang Gan 36 54 0 14 Mar 2024
Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought James Chua Edward Rees Hunar Batra Samuel R. Bowman Julian Michael Ethan Perez Miles Turpin LRM 44 13 0 08 Mar 2024
Factuality of Large Language Models in the Year 2024 Yuxia Wang Minghan Wang Muhammad Arslan Manzoor Fei Liu Georgi Georgiev Rocktim Jyoti Das Preslav Nakov LRM HILM 38 7 0 04 Feb 2024
Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems Tianyu Cui Yanling Wang Chuanpu Fu Yong Xiao Sijia Li ... Junwu Xiong Xinyu Kong Zujie Wen Ke Xu Qi Li 60 56 0 11 Jan 2024
Alignment for Honesty Yuqing Yang Ethan Chern Xipeng Qiu Graham Neubig Pengfei Liu 44 30 0 12 Dec 2023
System 2 Attention (is something you might need too) Jason Weston Sainbayar Sukhbaatar RALM OffRL LRM 22 57 0 20 Nov 2023
Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5? C. D. Freeman Laura J. Culp Aaron T Parisi Maxwell Bileschi Gamaleldin F. Elsayed ... Peter J. Liu Roman Novak Yundi Qian Noah Fiedel Jascha Narain Sohl-Dickstein AAML 33 2 0 08 Nov 2023
Preventing Language Models From Hiding Their Reasoning Fabien Roger Ryan Greenblatt LRM 26 16 0 27 Oct 2023
Managing extreme AI risks amid rapid progress Yoshua Bengio Geoffrey Hinton Andrew Yao Dawn Song Pieter Abbeel ... Philip Torr Stuart J. Russell Daniel Kahneman J. Brauner Sören Mindermann 29 63 0 26 Oct 2023
Towards Understanding Sycophancy in Language Models Mrinank Sharma Meg Tong Tomasz Korbak David Duvenaud Amanda Askell ... Oliver Rausch Nicholas Schiefer Da Yan Miranda Zhang Ethan Perez 213 192 0 20 Oct 2023
Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning Shitong Duan Xiaoyuan Yi Peng Zhang T. Lu Xing Xie Ning Gu 24 9 0 17 Oct 2023
Teaching Language Models to Hallucinate Less with Synthetic Tasks Erik Jones Hamid Palangi Clarisse Simoes Varun Chandrasekaran Subhabrata Mukherjee Arindam Mitra Ahmed Hassan Awadallah Ece Kamar HILM 21 24 0 10 Oct 2023
MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use Yue Huang Jiawen Shi Yuan Li Chenrui Fan Siyuan Wu ... Yixin Liu Pan Zhou Yao Wan Neil Zhenqiang Gong Lichao Sun LLMAG 40 82 0 04 Oct 2023
Ask Again, Then Fail: Large Language Models' Vacillations in Judgment Qiming Xie Zengzhi Wang Yi Feng Rui Xia AAML HILM 35 9 0 03 Oct 2023
How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions Lorenzo Pacchiardi A. J. Chan Sören Mindermann Ilan Moscovitz Alexa Y. Pan Y. Gal Owain Evans J. Brauner LLMAG HILM 22 48 0 26 Sep 2023
MiChao-HuaFen 1.0: A Specialized Pre-trained Corpus Dataset for Domain-specific Large Models Yidong Liu Fu-De Shang Fang Wang Rui Xu Jun Wang Wei Li Yaoxin Li Conghui He AILaw AI4TS 22 1 0 21 Sep 2023
MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning Xiang Yue Xingwei Qu Ge Zhang Yao Fu Wenhao Huang Huan Sun Yu-Chuan Su Wenhu Chen AIMat LRM 62 361 0 11 Sep 2023
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models Yue Zhang Yafu Li Leyang Cui Deng Cai Lemao Liu ... Longyue Wang A. Luu Wei Bi Freda Shi Shuming Shi RALM LRM HILM 46 522 0 03 Sep 2023
Explainability for Large Language Models: A Survey Haiyan Zhao Hanjie Chen Fan Yang Ninghao Liu Huiqi Deng Hengyi Cai Shuaiqiang Wang Dawei Yin Jundong Li LRM 29 411 0 02 Sep 2023
Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate Boshi Wang Xiang Yue Huan Sun ELM LRM 46 60 0 22 May 2023