v1v2v3v4v5 (latest)

Locating and Editing Factual Associations in GPT

10 February 2022

Papers citing "Locating and Editing Factual Associations in GPT"

50 / 1,056 papers shown

Title
In-Context Exemplars as Clues to Retrieving from Large Associative Memory Jiachen Zhao 59 7 0 06 Nov 2023
The Effect of Scaling, Retrieval Augmentation and Form on the Factual Consistency of Language Models Lovisa Hagström Denitsa Saynova Tobias Norlund Moa Johansson Richard Johansson KELM HILM 63 9 0 02 Nov 2023
Training Dynamics of Contextual N-Grams in Language Models Lucia Quirke Lovis Heindrich Wes Gurnee Neel Nanda 77 5 0 01 Nov 2023
Defining a New NLP Playground Sha Li Chi Han Pengfei Yu Carl Edwards Manling Li ... Yi R. Fung Charles Yu Joel R. Tetreault Eduard H. Hovy Heng Ji 123 5 0 31 Oct 2023
DEPN: Detecting and Editing Privacy Neurons in Pretrained Language Models Xinwei Wu Junzhuo Li Minghui Xu Weilong Dong Shuangzhi Wu Chao Bian Deyi Xiong MU KELM 108 55 0 31 Oct 2023
The Expressibility of Polynomial based Attention Scheme Zhao Song Guangyi Xu Junze Yin 95 5 0 30 Oct 2023
A Survey on Knowledge Editing of Neural Networks Vittorio Mazzia Alessandro Pedrani Andrea Caciolai Kay Rottmann Davide Bernardi KELM 127 25 0 30 Oct 2023
Debiasing Algorithm through Model Adaptation Tomasz Limisiewicz David Marecek Tomáš Musil 117 14 0 29 Oct 2023
Codebook Features: Sparse and Discrete Interpretability for Neural Networks Alex Tamkin Mohammad Taufeeque Noah D. Goodman 89 29 0 26 Oct 2023
How do Language Models Bind Entities in Context? Jiahai Feng Jacob Steinhardt 136 40 0 26 Oct 2023
Give Me the Facts! A Survey on Factual Knowledge Probing in Pre-trained Language Models Paul Youssef Osman Alperen Koracs Meijie Li Jorg Schlotterer Christin Seifert KELM 83 19 0 25 Oct 2023
Attention Lens: A Tool for Mechanistically Interpreting the Attention Head Information Retrieval Mechanism Mansi Sakarvadia Arham Khan Aswathy Ajith Daniel Grzenda Nathaniel Hudson André Bauer Kyle Chard Ian Foster 247 11 0 25 Oct 2023
Knowledge Editing for Large Language Models: A Survey Song Wang Yaochen Zhu Haochen Liu Zaiyi Zheng Chen Chen Wenlin Yao KELM 176 164 0 24 Oct 2023
In-Context Learning Creates Task Vectors Roee Hendel Mor Geva Amir Globerson 121 168 0 24 Oct 2023
Characterizing Mechanisms for Factual Recall in Language Models Qinan Yu Jack Merullo Ellie Pavlick KELM 112 29 0 24 Oct 2023
SoK: Memorization in General-Purpose Large Language Models Valentin Hartmann Anshuman Suri Vincent Bindschaedler David Evans Shruti Tople Robert West KELM LLMAG 98 24 0 24 Oct 2023
Unnatural language processing: How do language models handle machine-generated prompts? Corentin Kervadec Francesca Franzon Marco Baroni 71 5 0 24 Oct 2023
Unveiling Multilinguality in Transformer Models: Exploring Language Specificity in Feed-Forward Networks Sunit Bhattacharya Ondrej Bojar 54 12 0 24 Oct 2023
KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval Marah Abdin Suriya Gunasekar Varun Chandrasekaran Jerry Li Mert Yuksekgonul Rahee Peshawaria Ranjita Naik Besmira Nushi 93 12 0 24 Oct 2023
Function Vectors in Large Language Models Eric Todd Millicent Li Arnab Sen Sharma Aaron Mueller Byron C. Wallace David Bau 61 124 0 23 Oct 2023
Plausibility Processing in Transformer Language Models: Focusing on the Role of Attention Heads in GPT Soo Hyun Ryu 55 0 0 20 Oct 2023
Understanding Addition in Transformers Philip Quirke Fazl Barez 157 19 0 19 Oct 2023
Frozen Transformers in Language Models Are Effective Visual Encoder Layers Ziqi Pang Ziyang Xie Yunze Man Yu-Xiong Wang 148 27 0 19 Oct 2023
SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation Chongyu Fan Jiancheng Liu Yihua Zhang Eric Wong Dennis Wei Sijia Liu MU 143 150 0 19 Oct 2023
Getting aligned on representational alignment Ilia Sucholutsky Lukas Muttenthaler Adrian Weller Andi Peng Andreea Bobu ... Thomas Unterthiner Andrew Kyle Lampinen Klaus-Robert Muller M. Toneva Thomas Griffiths 158 93 0 18 Oct 2023
Emptying the Ocean with a Spoon: Should We Edit Models? Yuval Pinter Michael Elhadad KELM 129 29 0 18 Oct 2023
From Neural Activations to Concepts: A Survey on Explaining Concepts in Neural Networks Jae Hee Lee Sergio Lanza Stefan Wermter 73 10 0 18 Oct 2023
Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective Ming Zhong Chenxin An Weizhu Chen Jiawei Han Pengcheng He 101 12 0 17 Oct 2023
How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations Tianyu Guo Wei Hu Song Mei Huan Wang Caiming Xiong Silvio Savarese Yu Bai 107 60 0 16 Oct 2023
Interpreting and Controlling Vision Foundation Models via Text Explanations Haozhe Chen Junfeng Yang Carl Vondrick Chengzhi Mao 91 3 0 16 Oct 2023
Attribution Patching Outperforms Automated Circuit Discovery Aaquib Syed Can Rager Arthur Conmy 159 67 0 16 Oct 2023
Untying the Reversal Curse via Bidirectional Language Model Editing Jun-Yu Ma Jia-Chen Gu Zhen-Hua Ling Quan Liu Cong Liu KELM 131 41 0 16 Oct 2023
Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models Jirui Qi Raquel Fernández Arianna Bisazza KELM HILM 223 76 0 16 Oct 2023
VLIS: Unimodal Language Models Guide Multimodal Language Generation Jiwan Chung Youngjae Yu VLM 77 2 0 15 Oct 2023
Measuring Feature Sparsity in Language Models Mingyang Deng Lucas Tao Joe Benton 63 1 0 11 Oct 2023
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity Cunxiang Wang Xiaoze Liu Yuanhao Yue Xiangru Tang Tianhang Zhang ... Linyi Yang Jindong Wang Xing Xie Zheng Zhang Yue Zhang HILM KELM 172 202 0 11 Oct 2023
How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances Zihan Zhang Meng Fang Lingxi Chen Mohammad-Reza Namazi-Rad Jun Wang KELM 98 24 0 11 Oct 2023
An Adversarial Example for Direct Logit Attribution: Memory Management in gelu-4l James Dao Yeu-Tong Lau Can Rager Jett Janiak 107 5 0 11 Oct 2023
The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets Samuel Marks Max Tegmark HILM 153 227 0 10 Oct 2023
A Meta-Learning Perspective on Transformers for Causal Language Modeling Xinbo Wu Lav Varshney 80 7 0 09 Oct 2023
Factuality Challenges in the Era of Large Language Models Isabelle Augenstein Timothy Baldwin Meeyoung Cha Tanmoy Chakraborty Giovanni Luca Ciampaglia ... Rubén Míguez Preslav Nakov Dietram A. Scheufele Shivam Sharma Giovanni Zagni HILM 81 44 0 08 Oct 2023
The Cost of Down-Scaling Language Models: Fact Recall Deteriorates before In-Context Learning Tian Jin Nolan Clement Xin Dong Vaishnavh Nagarajan Michael Carbin Jonathan Ragan-Kelley Gintare Karolina Dziugaite LRM 105 5 0 07 Oct 2023
SPADE: Sparsity-Guided Debugging for Deep Neural Networks Arshia Soltani Moakhar Eugenia Iofinova Elias Frantar Dan Alistarh 111 2 0 06 Oct 2023
DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers Anna Langedijk Hosein Mohebbi Gabriele Sarti Willem H. Zuidema Jaap Jumelet 95 12 0 05 Oct 2023
Discovering Knowledge-Critical Subnetworks in Pretrained Language Models Deniz Bayazit Negar Foroutan Zeming Chen Gail Weiss Antoine Bosselut KELM 105 16 0 04 Oct 2023
Scaling Laws for Associative Memories Vivien A. Cabannes Elvis Dohmatob A. Bietti 142 21 0 04 Oct 2023
Can Language Models be Instructed to Protect Personal Information? Yang Chen Ethan Mendes Sauvik Das Wei Xu Alan Ritter PILM 77 37 0 03 Oct 2023
Language Models Represent Space and Time Wes Gurnee Max Tegmark 141 168 0 03 Oct 2023
Editing Personality for Large Language Models Shengyu Mao Xiaohan Wang Meng Wang Yong Jiang Pengjun Xie Yan Zhang Ningyu Zhang KELM 88 11 0 03 Oct 2023
Modularity in Deep Learning: A Survey Haozhe Sun Isabelle Guyon MoMe 113 3 0 02 Oct 2023