FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions

FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions

24 October 2023

Xuhui Zhou

Yejin Choi

Papers citing "FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions"

13 / 63 papers shown

Title
EmoBench: Evaluating the Emotional Intelligence of Large Language Models Sahand Sabour Siyang Liu Zheyuan Zhang June M. Liu Jinfeng Zhou Alvionna S. Sunaryo Juanzi Li Tatia M.C. Lee Rada Mihalcea Minlie Huang 32 12 0 19 Feb 2024
Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once? Guijin Son Sangwon Baek Sangdae Nam Ilgyun Jeong Seungone Kim ELM LRM 40 14 0 18 Feb 2024
OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models Hainiu Xu Runcong Zhao Lixing Zhu Bin Liang Yulan He 84 20 0 08 Feb 2024
MMToM-QA: Multimodal Theory of Mind Question Answering Chuanyang Jin Yutong Wu Jing Cao Jiannan Xiang Yen-Ling Kuo Zhiting Hu T. Ullman Antonio Torralba Joshua B. Tenenbaum Tianmin Shu 39 33 0 16 Jan 2024
Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory Niloofar Mireshghallah Hyunwoo J. Kim Xuhui Zhou Yulia Tsvetkov Maarten Sap Reza Shokri Yejin Choi PILM 38 75 0 27 Oct 2023
MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation Shuwen Qiu Mingdian Liu Hengli Li Song-Chun Zhu Zilong Zheng 16 0 0 27 Jun 2023
Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models Natalie Shapira Mosh Levy S. Alavi Xuhui Zhou Yejin Choi Yoav Goldberg Maarten Sap Vered Shwartz LLMAG ELM 31 115 0 24 May 2023
Davinci the Dualist: the mind-body divide in large language models and in human learners I. Berent Alexzander Sansiveri AI4CE VLM 29 0 0 10 May 2023
Evaluating Large Language Models in Theory of Mind Tasks Michal Kosinskihttps://www.semanticscholar.org/me/account LLMAG LRM 27 102 0 04 Feb 2023
Robots-Dont-Cry: Understanding Falsely Anthropomorphic Utterances in Dialog Systems David Gros Yu Li Zhou Yu 49 9 0 22 Oct 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 328 4,077 0 24 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 354 12,003 0 04 Mar 2022
Measuring and Improving Consistency in Pretrained Language Models Yanai Elazar Nora Kassner Shauli Ravfogel Abhilasha Ravichander Eduard H. Hovy Hinrich Schütze Yoav Goldberg HILM 269 346 0 01 Feb 2021