v1v2v3v4v5 (latest)

Locating and Editing Factual Associations in GPT

10 February 2022

Papers citing "Locating and Editing Factual Associations in GPT"

50 / 1,056 papers shown

Title
Exploiting Edited Large Language Models as General Scientific Optimizers Qitan Lv T. Liu Haoyu Wang 191 1 0 08 Mar 2025
From Style to Facts: Mapping the Boundaries of Knowledge Injection with Finetuning Eric Zhao Pranjal Awasthi Nika Haghtalab 83 0 0 07 Mar 2025
Knowledge Updating? No More Model Editing! Just Selective Contextual Reasoning Guoxiu He Xin Song Aixin Sun KELM 133 5 0 07 Mar 2025
Revealing Hidden Mechanisms of Cross-Country Content Moderation with Natural Language Processing Neemesh Yadav Jiarui Liu Francesco Ortu Roya Ensafi Zhijing Jin Rada Mihalcea 76 0 0 07 Mar 2025
The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems Richard Ren Arunim Agarwal Mantas Mazeika Cristina Menghini Robert Vacareanu ... Matias Geralnik Adam Khoja Dean Lee Summer Yue Dan Hendrycks HILM ALM 175 4 0 05 Mar 2025
(How) Do Language Models Track State? Belinda Z. Li Zifan Carl Guo Jacob Andreas LRM 115 3 0 04 Mar 2025
MindBridge: Scalable and Cross-Model Knowledge Editing via Memory-Augmented Modality Shuaike Li Kai Zhang Qiang Liu Enhong Chen KELM 131 1 0 04 Mar 2025
Effectively Steer LLM To Follow Preference via Building Confident Directions Bingqing Song Boran Han Shuai Zhang Hao Wang Haoyang Fang Bonan Min Yuyang Wang Mingyi Hong LLMSV 95 4 0 04 Mar 2025
SAKE: Steering Activations for Knowledge Editing Marco Scialanga Thibault Laugel Vincent Grari Marcin Detyniecki KELM LLMSV 113 2 0 03 Mar 2025
Word Form Matters: LLMs' Semantic Reconstruction under Typoglycemia Chenxi Wang Tianle Gu Zhongyu Wei Lang Gao Zirui Song Xiuying Chen OffRL 106 5 0 03 Mar 2025
SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction Lu Dai Yijie Xu Jinhui Ye Hao Liu Hui Xiong 3DV RALM 224 3 0 03 Mar 2025
Superscopes: Amplifying Internal Feature Representations for Language Model Interpretation Jonathan Jacobi Gal Niv LRM ReLM 148 0 0 03 Mar 2025
Unlocking Efficient, Scalable, and Continual Knowledge Editing with Basis-Level Representation Fine-Tuning Tianci Liu R. Li Yunzhe Qi Hui Liu Xianfeng Tang ... Qingyu Yin Monica Cheng Jun Huan Haoyu Wang Jing Gao KELM 102 4 0 01 Mar 2025
Everything, Everywhere, All at Once: Is Mechanistic Interpretability Identifiable? Maxime Méloux Silviu Maniu François Portet Maxime Peyrard 123 1 0 28 Feb 2025
Capability Localization: Capabilities Can be Localized rather than Individual Knowledge Xiusheng Huang Jiaxiang Liu Yequan Wang Jun Zhao Kang Liu 97 1 0 28 Feb 2025
GeoEdit: Geometric Knowledge Editing for Large Language Models Yujie Feng Liming Zhan Zexin Lu Yongxin Xu Xu Chu Yasha Wang Jiannong Cao Philip S. Yu Xiao-Ming Wu KELM 116 1 0 27 Feb 2025
PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation Albert Gong Kamilė Stankevičiūtė Chao-gang Wan Anmol Kabra Raphael Thesmar Johann Lee Julius Klenke Carla P. Gomes Kilian Q. Weinberger LRM RALM 121 0 0 27 Feb 2025
Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models Yukang Yang Declan Campbell Kaixuan Huang Mengdi Wang Jonathan D. Cohen Taylor Webb LRM 195 5 0 27 Feb 2025
Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models Huazheng Wang Yongcheng Jing Haifeng Sun Yingjie Wang Jingchao Wang Jianxin Liao Dacheng Tao KELM MU 105 0 0 27 Feb 2025
Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries Tianyi Lorena Yan Robin Jia KELM MU 100 0 0 27 Feb 2025
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge Yuntao Du Kailin Jiang Zhi Gao Chenrui Shi Zilong Zheng Siyuan Qi Qing Li KELM 124 4 0 27 Feb 2025
Neuroplasticity and Corruption in Model Mechanisms: A Case Study Of Indirect Object Identification Vishnu Kabir Chhabra Ding Zhu Mohammad Mahdi Khalili 104 3 0 27 Feb 2025
A Causal Lens for Evaluating Faithfulness Metrics Kerem Zaman Shashank Srivastava 113 1 0 26 Feb 2025
Norm Growth and Stability Challenges in Localized Sequential Knowledge Editing Akshat Gupta Christine Fang Atahan Ozdemir Maochuan Lu Ahmed Alaa Thomas Hartvigsen Gopala Anumanchipalli KELM 123 0 0 26 Feb 2025
Can LLMs Explain Themselves Counterfactually? Zahra Dehghanighobadi Asja Fischer Muhammad Bilal Zafar LRM 90 0 0 25 Feb 2025
Constraining Sequential Model Editing with Editing Anchor Compression Hao-Xiang Xu Jun-Yu Ma Zhen-Hua Ling Ningyu Zhang Jia-Chen Gu KELM 92 1 0 25 Feb 2025
Jacobian Sparse Autoencoders: Sparsify Computations, Not Just Activations Lucy Farnik Tim Lawson Conor Houghton Laurence Aitchison 111 1 0 25 Feb 2025
Steered Generation via Gradient Descent on Sparse Features Sumanta Bhattacharyya Pedram Rooshenas LLMSV 94 0 0 25 Feb 2025
On the Robustness of Transformers against Context Hijacking for Linear Classification Tianle Li Chenyang Zhang Xingwu Chen Yuan Cao Difan Zou 136 2 0 24 Feb 2025
Memory Helps, but Confabulation Misleads: Understanding Streaming Events in Videos with MLLMs Gengyuan Zhang Mingcong Ding Tong Liu Yao Zhang Volker Tresp 183 2 0 24 Feb 2025
Do Multilingual LLMs Think In English? Lisa Schut Y. Gal Sebastian Farquhar 95 16 0 24 Feb 2025
Model Lakes Koyena Pal David Bau Renée J. Miller 187 2 0 24 Feb 2025
Investigating the Adaptive Robustness with Knowledge Conflicts in LLM-based Multi-Agent Systems Tianjie Ju Binghai Wang Hao Fei Mong Li Lee Wynne Hsu ... Qianren Wang Pengzhou Cheng Zongru Wu Zhuosheng Zhang Gongshen Liu AAML 62 0 0 24 Feb 2025
On Relation-Specific Neurons in Large Language Models Yihong Liu Runsheng Chen Lea Hirlimann Ahmad Dawar Hakimi Mingyang Wang Amir Hossein Kargaran S. Rothe François Yvon Hinrich Schütze KELM 95 0 0 24 Feb 2025
CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale Chenlong Wang Zhaoyang Chu Zhengxiang Cheng Xuyi Yang Kaiyue Qiu Yao Wan Zhou Zhao Xuanhua Shi Benlin Liu ALM SyDa 101 0 0 23 Feb 2025
From Text to Space: Mapping Abstract Spatial Models in LLMs during a Grid-World Navigation Task Nicolas Martorell LLMAG 139 2 0 23 Feb 2025
Interrogating LLM design under a fair learning doctrine Johnny Tian-Zheng Wei Maggie Wang Ameya Godbole Jonathan H. Choi Robin Jia 130 0 0 22 Feb 2025
Steering LLMs for Formal Theorem Proving Shashank Kirtania Arun Shankar Iyer LLMSV 538 0 0 21 Feb 2025
ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation Pengcheng Huang Zhenghao Liu Yukun Yan Xiaoyuan Yi Hao Chen ... Maosong Sun Tong Xiao Ge Yu Ge Yu Chenyan Xiong 184 2 0 21 Feb 2025
A Close Look at Decomposition-based XAI-Methods for Transformer Language Models L. Arras Bruno Puri Patrick Kahardipraja Sebastian Lapuschkin Wojciech Samek 103 3 0 21 Feb 2025
Revealing and Mitigating Over-Attention in Knowledge Editing Pinzheng Wang Zecheng Tang Keyan Zhou Junlin Li Qiaoming Zhu Hao Fei KELM 184 3 0 21 Feb 2025
CoME: An Unlearning-based Approach to Conflict-free Model Editing Dahyun Jung Jaehyung Seo Jaewook Lee Chanjun Park Heuiseok Lim MU KELM 105 1 0 20 Feb 2025
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models Zihao Wei Jingcheng Deng Liang Pang Hanxing Ding Huawei Shen Xueqi Cheng KELM 147 7 0 20 Feb 2025
Mechanistic Understanding of Language Models in Syntactic Code Completion Samuel Miller Daking Rai Ziyu Yao LRM 75 0 0 20 Feb 2025
Elucidating Mechanisms of Demographic Bias in LLMs for Healthcare Hiba Ahsan Arnab Sen Sharma Silvio Amir David Bau Byron C. Wallace 134 0 0 20 Feb 2025
Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models Haokun Chen Sebastian Szyller Weilin Xu N. Himayat MU AAML 93 1 0 20 Feb 2025
UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning Vaidehi Patil Elias Stengel-Eskin Joey Tianyi Zhou MU CLL 119 4 0 20 Feb 2025
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers Anton Razzhigaev Matvey Mikhalchuk Temurbek Rahmatullaev Elizaveta Goncharova Polina Druzhinina Ivan Oseledets Andrey Kuznetsov 125 5 0 20 Feb 2025
PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery Bowei He Lihao Yin Hui-Ling Zhen Xiaokun Zhang Mingxuan Yuan Chen Ma 181 0 0 18 Feb 2025
The Knowledge Microscope: Features as Better Analytical Lenses than Neurons Yuheng Chen Pengfei Cao Kang Liu Jun Zhao 85 2 0 18 Feb 2025