Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models

24 May 2023

Natalie Shapira

Mosh Levy

S. Alavi

Xuhui Zhou

Yejin Choi

Papers citing "Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models"

24 / 24 papers shown

Title
R^3-VQA: "Read the Room" by Video Social Reasoning Lixing Niu Jiapeng Li Xingping Yu Shu Wang Ruining Feng Bo Wu Ping Wei Yansen Wang Lifeng Fan 51 0 0 07 May 2025
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models Bang Zhang Ruotian Ma Qingxuan Jiang Peisong Wang Jiaqi Chen ... Fanghua Ye Jian Li Yifan Yang Zhaopeng Tu Xiaolong Li LLMAG ELM ALM 111 0 1 01 May 2025
Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? Yi-Long Lu Chunhui Zhang Jiajun Song Lifeng Fan Wei Wang OffRL 53 0 0 02 Apr 2025
Re-evaluating Theory of Mind evaluation in large language models Jennifer Hu Felix Sosa T. Ullman 45 0 0 28 Feb 2025
Social Genome: Grounded Social Reasoning Abilities of Multimodal Models Leena Mathur Marian Qian Paul Pu Liang Louis-Philippe Morency LRM 178 1 0 21 Feb 2025
Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning Eitan Wagner Nitay Alon J. Barnby Omri Abend LRM 85 2 0 18 Dec 2024
Understanding Epistemic Language with a Language-augmented Bayesian Theory of Mind Lance Ying Tan Zhi-Xuan Lionel Wong Vikash K. Mansinghka J. Tenenbaum 61 1 0 21 Aug 2024
Large Language Models Assume People are More Rational than We Really are Ryan Liu Jiayi Geng Joshua C. Peterson Ilia Sucholutsky Thomas L. Griffiths 76 17 0 24 Jun 2024
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent Wenjia Xu Zijian Yu Yixu Wang Jiuniu Wang Yuanben Zhang Guangzuo Li Mugen Peng LLMAG 48 0 0 11 Jun 2024
Language Models Represent Beliefs of Self and Others Wentao Zhu Zhining Zhang Yizhou Wang MILM LRM 50 7 0 28 Feb 2024
Think Twice: Perspective-Taking Improves Large Language Models' Theory-of-Mind Capabilities Alex Wilf Sihyun Shawn Lee Paul Pu Liang Louis-Philippe Morency LRM 35 34 0 16 Nov 2023
Towards Understanding Sycophancy in Language Models Mrinank Sharma Meg Tong Tomasz Korbak David Duvenaud Amanda Askell ... Oliver Rausch Nicholas Schiefer Da Yan Miranda Zhang Ethan Perez 216 198 0 20 Oct 2023
Position: Key Claims in LLM Research Have a Long Tail of Footnotes Anna Rogers A. Luccioni 53 19 0 14 Aug 2023
Turning large language models into cognitive models Marcel Binz Eric Schulz 32 54 0 06 Jun 2023
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses Eliza Kosoy Emily Rose Reagan Leslie Y. Lai Alison Gopnik Danielle Krettek Cobb 24 9 0 18 May 2023
Davinci the Dualist: the mind-body divide in large language models and in human learners I. Berent Alexzander Sansiveri AI4CE VLM 29 0 0 10 May 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 322 3,021 0 22 Mar 2023
Reasoning with Language Model Prompting: A Survey Shuofei Qiao Yixin Ou Ningyu Zhang Xiang Chen Yunzhi Yao Shumin Deng Chuanqi Tan Fei Huang Huajun Chen ReLM ELM LRM 71 311 0 19 Dec 2022
Event knowledge in large language models: the gap between the impossible and the unlikely Carina Kauf Anna A. Ivanova Giulia Rambelli Emmanuele Chersoni Jingyuan Selena She Zawad Chowdhury Evelina Fedorenko Alessandro Lenci 37 67 0 02 Dec 2022
Few-Shot Character Understanding in Movies as an Assessment to Meta-Learning of Theory-of-Mind Mo Yu Qiujing Wang Shunchi Zhang Yisi Sang Kangsheng Pu ... Han Wang Liyan Xu Jing Li Yue Yu Jie Zhou 32 19 0 09 Nov 2022
Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations Jaehun Jung Lianhui Qin Sean Welleck Faeze Brahman Chandra Bhagavatula Ronan Le Bras Yejin Choi ReLM LRM 229 190 0 24 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 339 12,003 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 398 8,559 0 28 Jan 2022
e-SNLI: Natural Language Inference with Natural Language Explanations Oana-Maria Camburu Tim Rocktaschel Thomas Lukasiewicz Phil Blunsom LRM 263 622 0 04 Dec 2018