v1v2v3v4v5 (latest)

Locating and Editing Factual Associations in GPT

10 February 2022

Papers citing "Locating and Editing Factual Associations in GPT"

50 / 1,056 papers shown

Title
Activation Scaling for Steering and Interpreting Language Models Niklas Stoehr Kevin Du Vésteinn Snæbjarnarson Robert West Ryan Cotterell Aaron Schein LLMSV LRM 97 5 0 07 Oct 2024
MINER: Mining the Underlying Pattern of Modality-Specific Neurons in Multimodal Large Language Models Kaichen Huang Jiahao Huo Yibo Yan Kun Wang Yutao Yue Xuming Hu 88 2 0 07 Oct 2024
OD-Stega: LLM-Based Near-Imperceptible Steganography via Optimized Distributions Yu-Shin Huang Peter Just Krishna Narayanan Chao Tian 134 7 0 06 Oct 2024
Evaluating Language Model Character Traits Francis Rhys Ward Zejia Yang Alex Jackson Randy Brown Chandler Smith Grace Colverd Louis Thomson Raymond Douglas Patrik Bartak Andrew Rowan 69 0 0 05 Oct 2024
Neuron-Level Sequential Editing for Large Language Models Houcheng Jiang Sihang Li Tianyu Zhang An Zhang Ruipeng Wang Tao Liang Xiang Wang KELM 113 4 0 05 Oct 2024
Understanding Reasoning in Chain-of-Thought from the Hopfieldian View Lijie Hu Liang Liu Shu Yang Xin Chen Zhen Tan Muhammad Asif Ali Mengdi Li Di Wang LRM 145 5 0 04 Oct 2024
How Language Models Prioritize Contextual Grammatical Cues? Hamidreza Amirzadeh Afra Alishahi Hosein Mohebbi 65 0 0 04 Oct 2024
RIPPLECOT: Amplifying Ripple Effect of Knowledge Editing in Language Models via Chain-of-Thought In-Context Learning Zihao Zhao Yuchen Yang Yijiang Li Yinzhi Cao LRM KELM 58 1 0 04 Oct 2024
SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation Aurick Qiao Z. Yao Samyam Rajbhandari Yuxiong He VLM 85 2 0 04 Oct 2024
Fine-Tuning Language Models with Differential Privacy through Adaptive Noise Allocation Xianzhi Li Ran Zmigrod Zhiqiang Ma Xiaomo Liu Xiaodan Zhu 123 3 0 03 Oct 2024
HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Ruibin Yuan Xueqi Cheng 115 5 0 03 Oct 2024
Defining Knowledge: Bridging Epistemology and Large Language Models Constanza Fierro Ruchira Dhar Filippos Stamatiou Nicolas Garneau Anders Søgaard KELM 139 5 0 03 Oct 2024
Meta-Models: An Architecture for Decoding LLM Behaviors Through Interpreted Embeddings and Natural Language Anthony Costarelli Mat Allen Severin Field 71 1 0 03 Oct 2024
Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization Mingyang Wang Lukas Lange Heike Adel Jannik Strötgen Hinrich Schütze KELM 84 3 0 03 Oct 2024
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations Nick Jiang Anish Kachinthaya Suzie Petryk Yossi Gandelsman VLM 134 28 0 03 Oct 2024
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations Hadas Orgad Michael Toker Zorik Gekhman Roi Reichart Idan Szpektor Hadas Kotek Yonatan Belinkov HILM AIFin 134 45 0 03 Oct 2024
Theoretical Insights into Fine-Tuning Attention Mechanism: Generalization and Optimization Xinhao Yao Hongjin Qian Xiaolin Hu Gengze Xu Wei Liu Jian Luan Bin Wang Yang Liu 134 1 0 03 Oct 2024
Erasing Conceptual Knowledge from Language Models Rohit Gandikota Sheridan Feucht Samuel Marks David Bau KELM ELM MU 133 11 0 03 Oct 2024
AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models Sihang Li Houcheng Jiang Kun Wang Yunshan Ma Shi Jie Xiangnan He Tat-Seng Chua Tat-seng Chua KELM 220 66 0 03 Oct 2024
Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models Guobin Shen Dongcheng Zhao Yiting Dong Xiang He Yi Zeng AAML 120 4 0 03 Oct 2024
FactCheckmate: Preemptively Detecting and Mitigating Hallucinations in LMs Deema Alnuhait Neeraja Kirtane Muhammad Khalifa Hao Peng LRM HILM 107 4 0 03 Oct 2024
Question-guided Knowledge Graph Re-scoring and Injection for Knowledge Graph Question Answering Yu Zhang Kehai Chen Xuefeng Bai zhao kang Quanjiang Guo Min Zhang 125 12 0 02 Oct 2024
Unveiling Language Skills under Circuits Hang Chen Jiaying Zhu Xinyu Yang Wenya Wang 39 0 0 02 Oct 2024
Mitigating Copy Bias in In-Context Learning through Neuron Pruning Ameen Ali Lior Wolf Ivan Titov 73 3 0 02 Oct 2024
Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models Philipp Mondorf Sondre Wold Yun Xue 232 1 0 02 Oct 2024
Knowledge Entropy Decay during Language Model Pretraining Hinders New Knowledge Acquisition Jiyeon Kim Hyunji Lee Hyowon Cho Joel Jang Hyeonbin Hwang Seungpil Won Youbin Ahn Dohaeng Lee Minjoon Seo KELM 422 5 0 02 Oct 2024
Do Music Generation Models Encode Music Theory? Megan Wei Michael Freeman Chris Donahue Chen Sun MGen 76 6 0 01 Oct 2024
Quantifying reliance on external information over parametric knowledge during Retrieval Augmented Generation (RAG) using mechanistic analysis Reshmi Ghosh Rahul Seetharaman Hitesh Wadhwa Somyaa Aggarwal Samyadeep Basu Soundararajan Srinivasan Wenlong Zhao Shreyas Chaudhari Ehsan Aghazadeh 54 0 0 01 Oct 2024
UniAdapt: A Universal Adapter for Knowledge Calibration Tai D. Nguyen Long H. Pham Jun Sun KELM 76 1 0 01 Oct 2024
Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge Unlearning Shota Takashiro Takeshi Kojima Andrew Gambardella Qi Cao Yusuke Iwasawa Y. Matsuo CLL MU KELM 34 2 0 01 Oct 2024
Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration Kaihang Pan Zhaoyu Fan Juncheng Li Qifan Yu Hao Fei Siliang Tang Richang Hong Hanwang Zhang Qianru Sun KELM 116 10 0 30 Sep 2024
Beyond Single Concept Vector: Modeling Concept Subspace in LLMs with Gaussian Distribution Haiyan Zhao Heng Zhao Bo Shen Ali Payani Fan Yang Mengnan Du 125 5 0 30 Sep 2024
Transforming Hidden States into Binary Semantic Features Tomáš Musil David Marecek OffRL 52 0 0 29 Sep 2024
Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement Zhehao Huang Xinwen Cheng Jinghao Zheng Haoran Wang Zhengbao He Tao Li Xiaolin Huang MU 110 9 0 29 Sep 2024
Identifying Knowledge Editing Types in Large Language Models Xiaopeng Li Shasha Li Shangwen Wang Shezheng Song Bin Ji Huijun Liu Jun Ma Jie Yu KELM 77 2 0 29 Sep 2024
Crafting Personalized Agents through Retrieval-Augmented Generation on Editable Memory Graphs Zheng Wang Zhongyang Li Zeren Jiang Dandan Tu Wei Shi 82 8 0 28 Sep 2024
Localizing Memorization in SSL Vision Encoders Wenhao Wang Adam Dziedzic Michael Backes Franziska Boenisch 79 2 0 27 Sep 2024
"Why" Has the Least Side Effect on Model Editing Tsung-Hsuan Pan Chung-Chi Chen Hen-Hsen Huang Hsin-Hsi Chen KELM 53 1 0 27 Sep 2024
Investigating Layer Importance in Large Language Models Yang Zhang Yanfei Dong Kenji Kawaguchi FAtt 100 10 0 22 Sep 2024
A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders David Chanin James Wilken-Smith Tomáš Dulka Hardik Bhatnagar Joseph Bloom Joseph Isaac Bloom 130 37 0 22 Sep 2024
Interpreting Arithmetic Mechanism in Large Language Models through Comparative Neuron Analysis Zeping Yu Sophia Ananiadou LRM MILM 114 14 0 21 Sep 2024
Co-occurrence is not Factual Association in Language Models Xiao Zhang Miao Li Ji Wu KELM 179 4 0 21 Sep 2024
Uncovering Latent Chain of Thought Vectors in Language Models Jason Zhang Scott Viteri LLMSV LRM 149 3 0 21 Sep 2024
Towards LifeSpan Cognitive Systems Yu Wang Chi Han Tongtong Wu Xiaoxin He Wangchunshu Zhou ... Zexue He Wei Wang Gholamreza Haffari Heng Ji Julian McAuley KELM CLL 489 2 0 20 Sep 2024
LLM Surgery: Efficient Knowledge Unlearning and Editing in Large Language Models Akshaj Kumar Veldanda Shi-Xiong Zhang Anirban Das Supriyo Chakraborty Stephen Rawls Sambit Sahu Milind Naphade KELM MU 70 2 0 19 Sep 2024
Pay Attention to What Matters Pedro Luiz Silva Antonio De Domenico Ali Maatouk Fadhel Ayed ALM 56 1 0 19 Sep 2024
MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language Muhammad Asif Ali Nawal Daftardar Mutayyaba Waheed Jianbin Qin Di Wang KELM 80 6 0 18 Sep 2024
StruEdit: Structured Outputs Enable the Fast and Accurate Knowledge Editing for Large Language Models Baolong Bi Shenghua Liu Yiwei Wang Lingrui Mei Hongcheng Gao Junfeng Fang Xueqi Cheng KELM 73 10 0 16 Sep 2024
Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective Van-Cuong Pham Thien Huu Nguyen LLMSV 98 3 0 16 Sep 2024
Optimal ablation for interpretability Maximilian Li Lucas Janson FAtt 129 3 0 16 Sep 2024