Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs

26 November 2021

Xian Li

Papers citing "Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs"

50 / 67 papers shown

Title
Jekyll-and-Hyde Tipping Point in an AI's Behavior Neil F. Johnson Frank Yingjie Huo 46 0 0 29 Apr 2025
CoME: An Unlearning-based Approach to Conflict-free Model Editing Dahyun Jung Jaehyung Seo Jaewook Lee Chanjun Park Heuiseok Lim MU KELM 52 0 0 20 Feb 2025
Evaluating Language Model Character Traits Francis Rhys Ward Zejia Yang Alex Jackson Randy Brown Chandler Smith Grace Colverd Louis Thomson Raymond Douglas Patrik Bartak Andrew Rowan 42 0 0 05 Oct 2024
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models Zhongyu Zhao Menghang Dong Rongyu Zhang Wenzhao Zheng Yunpeng Zhang Huanrui Yang Dalong Du Kurt Keutzer Shanghang Zhang 46 0 0 15 Aug 2024
A Survey on Symbolic Knowledge Distillation of Large Language Models Kamal Acharya Alvaro Velasquez H. Song SyDa 41 5 0 12 Jul 2024
Operationalizing the Blueprint for an AI Bill of Rights: Recommendations for Practitioners, Researchers, and Policy Makers Alex Oesterling Usha Bhalla Suresh Venkatasubramanian Himabindu Lakkaraju 46 1 0 11 Jul 2024
Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs? Peter Hase Thomas Hofweber Xiang Zhou Elias Stengel-Eskin Joey Tianyi Zhou KELM LRM 43 12 0 27 Jun 2024
Beyond Individual Facts: Investigating Categorical Knowledge Locality of Taxonomy and Meronomy Concepts in GPT Models Christopher Burger Yifan Hu Thai Le KELM 39 0 0 22 Jun 2024
Towards Minimal Targeted Updates of Language Models with Targeted Negative Training Lily H. Zhang Rajesh Ranganath Arya Tafvizi 33 1 0 19 Jun 2024
In-Context Editing: Learning Knowledge from Self-Induced Distributions Siyuan Qi Bangcheng Yang Kailin Jiang Xiaobo Wang Jiaqi Li Yifan Zhong Yaodong Yang Zilong Zheng KELM 106 8 0 17 Jun 2024
Towards Supporting Legal Argumentation with NLP: Is More Data Really All You Need? T. Y. S. S Santosh Kevin D. Ashley Katie Atkinson Matthias Grabmair ELM AILaw 34 1 0 16 Jun 2024
Better Late Than Never: Formulating and Benchmarking Recommendation Editing Chengyu Lai Sheng Zhou Zhimeng Jiang Qiaoyu Tan Yuanchen Bei Jiawei Chen Ningyu Zhang Jiajun Bu OffRL KELM 33 0 0 06 Jun 2024
Leveraging Logical Rules in Knowledge Editing: A Cherry on the Top Keyuan Cheng Muhammad Asif Ali Shu Yang Gang Lin Yuxuan Zhai Haoyang Fei Ke Xu Lu Yu Lijie Hu Di Wang KELM 37 7 0 24 May 2024
Large Language Model Bias Mitigation from the Perspective of Knowledge Editing Ruizhe Chen Yichen Li Zikai Xiao Zuo-Qiang Liu KELM 38 13 0 15 May 2024
Continual Learning of Large Language Models: A Comprehensive Survey Haizhou Shi Zihao Xu Hengyi Wang Weiyi Qin Wenyuan Wang Yibin Wang Zifeng Wang Sayna Ebrahimi Hao Wang CLL KELM LRM 46 64 0 25 Apr 2024
Multi-hop Question Answering under Temporal Knowledge Editing Keyuan Cheng Gang Lin Haoyang Fei Yuxuan Zhai Lu Yu Muhammad Asif Ali Lijie Hu Di Wang KELM 27 21 0 30 Mar 2024
The Missing Piece in Model Editing: A Deep Dive into the Hidden Damage Brought By Model Editing Jianchen Wang Zhouhong Gu Xiaoxuan Zhu Lin Zhang Haoning Ye Zhuozhi Xiong Hongwei Feng Yanghua Xiao KELM 35 2 0 12 Mar 2024
"Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models Karina Halevy Anna Sotnikova Badr AlKhamissi Syrielle Montariol Antoine Bosselut KELM 34 3 0 29 Feb 2024
FairBelief -- Assessing Harmful Beliefs in Language Models Mattia Setzu Marta Marchiori Manerba Pasquale Minervini Debora Nozza 21 0 0 27 Feb 2024
DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection Herun Wan Shangbin Feng Zhaoxuan Tan Heng Wang Yulia Tsvetkov Minnan Luo 72 29 0 16 Feb 2024
Long-form evaluation of model editing Domenic Rosati Robie Gonzales Jinkun Chen Xuemin Yu Melis Erkan Yahya Kayani Satya Deepika Chavatapalli Frank Rudzicz Hassan Sajjad KELM 14 10 0 14 Feb 2024
Rethinking Machine Unlearning for Large Language Models Sijia Liu Yuanshun Yao Jinghan Jia Stephen Casper Nathalie Baracaldo ... Hang Li Kush R. Varshney Mohit Bansal Sanmi Koyejo Yang Liu AILaw MU 72 83 0 13 Feb 2024
Propagation and Pitfalls: Reasoning-based Assessment of Knowledge Editing through Counterfactual Tasks Wenyue Hua Jiang Guo Mingwen Dong He Zhu Patrick K. L. Ng Zhiguo Wang KELM 76 17 0 31 Jan 2024
DeepEdit: Knowledge Editing as Decoding with Constraints Yiwei Wang Muhao Chen Nanyun Peng Kai-Wei Chang KELM 21 26 0 19 Jan 2024
History Matters: Temporal Knowledge Editing in Large Language Model Xunjian Yin Jin Jiang Liming Yang Xiaojun Wan KELM 14 12 0 09 Dec 2023
A Self-enhancement Approach for Domain-specific Chatbot Training via Knowledge Mining and Digest Ruohong Zhang Luyu Gao Chen Zheng Zhen Fan Guokun Lai Zheng Zhang Fangzhou Ai Yiming Yang Hongxia Yang 48 2 0 17 Nov 2023
Knowledge Editing for Large Language Models: A Survey Song Wang Yaochen Zhu Haochen Liu Zaiyi Zheng Chen Chen Wenlin Yao KELM 68 133 0 24 Oct 2023
Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Attacks Vaidehi Patil Peter Hase Joey Tianyi Zhou KELM AAML 20 96 0 29 Sep 2023
Memory Injections: Correcting Multi-Hop Reasoning Failures during Inference in Transformer-Based Language Models Mansi Sakarvadia Aswathy Ajith Arham Khan Daniel Grzenda Nathaniel Hudson André Bauer Kyle Chard Ian Foster KELM LRM 22 16 0 11 Sep 2023
Evaluating the Moral Beliefs Encoded in LLMs Nino Scherrer Claudia Shi Amir Feder David M. Blei 33 117 0 26 Jul 2023
Embroid: Unsupervised Prediction Smoothing Can Improve Few-Shot Classification Neel Guha Mayee F. Chen Kush S. Bhatia Azalia Mirhoseini Frederic Sala Christopher Ré 29 4 0 20 Jul 2023
MGit: A Model Versioning and Management System Wei Hao Daniel Mendoza Rafael Ferreira da Silva Deepak Narayanan Amar Phanishayee VLM 19 1 0 14 Jul 2023
Information Association for Language Model Updating by Mitigating LM-Logical Discrepancy Pengfei Yu Heng Ji KELM 31 9 0 29 May 2023
Editable Graph Neural Network for Node Classifications Zirui Liu Zhimeng Jiang Shaochen Zhong Kaixiong Zhou Li Li Rui Chen Soo-Hyun Choi Xia Hu 25 6 0 24 May 2023
Meta-Learning Online Adaptation of Language Models Nathan J. Hu E. Mitchell Christopher D. Manning Chelsea Finn KELM 21 34 0 24 May 2023
MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions Zexuan Zhong Zhengxuan Wu Christopher D. Manning Christopher Potts Danqi Chen KELM 24 185 0 24 May 2023
Language Models with Rationality Nora Kassner Oyvind Tafjord Ashish Sabharwal Kyle Richardson Hinrich Schütze Peter Clark ReLM KELM LRM 12 15 0 23 May 2023
Knowledge Card: Filling LLMs' Knowledge Gaps with Plug-in Specialized Language Models Shangbin Feng Weijia Shi Yuyang Bai Vidhisha Balachandran Tianxing He Yulia Tsvetkov KELM 47 28 0 17 May 2023
RECKONING: Reasoning through Dynamic Knowledge Encoding Zeming Chen Gail Weiss E. Mitchell Asli Celikyilmaz Antoine Bosselut KELM LRM 27 11 0 10 May 2023
Improved Logical Reasoning of Language Models via Differentiable Symbolic Programming Hanlin Zhang Jiani Huang Ziyang Li Mayur Naik Eric P. Xing ReLM LRM 28 28 0 05 May 2023
Inspecting and Editing Knowledge Representations in Language Models Evan Hernandez Belinda Z. Li Jacob Andreas KELM 19 76 0 03 Apr 2023
The Life Cycle of Knowledge in Big Language Models: A Survey Boxi Cao Hongyu Lin Xianpei Han Le Sun KELM 33 27 0 14 Mar 2023
Edit at your own risk: evaluating the robustness of edited models to distribution shifts Davis Brown Charles Godfrey Cody Nizinski Jonathan Tu Henry Kvinge KELM 29 8 0 28 Feb 2023
GNNDelete: A General Strategy for Unlearning in Graph Neural Networks Jiali Cheng George Dasoulas Huan He Chirag Agarwal Marinka Zitnik MU 32 35 0 26 Feb 2023
Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models Peter Hase Joey Tianyi Zhou Been Kim Asma Ghandeharioun MILM 36 167 0 10 Jan 2023
DialGuide: Aligning Dialogue Model Behavior with Developer Guidelines Prakhar Gupta Yang Liu Di Jin Behnam Hedayatnia Spandana Gella Sijia Liu P. Lange Julia Hirschberg Dilek Z. Hakkani-Tür 30 5 0 20 Dec 2022
Language Models as Agent Models Jacob Andreas LLMAG 37 132 0 03 Dec 2022
Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adaptors Thomas Hartvigsen S. Sankaranarayanan Hamid Palangi Yoon Kim Marzyeh Ghassemi KELM 19 143 0 20 Nov 2022
On the Domain Adaptation and Generalization of Pretrained Language Models: A Survey Xu Guo Han Yu LM&MA VLM 28 29 0 06 Nov 2022
Mass-Editing Memory in a Transformer Kevin Meng Arnab Sen Sharma A. Andonian Yonatan Belinkov David Bau KELM VLM 33 525 0 13 Oct 2022