v1v2v3v4v5 (latest)

Locating and Editing Factual Associations in GPT

10 February 2022

Papers citing "Locating and Editing Factual Associations in GPT"

50 / 1,056 papers shown

Title
A Comprehensive Study of Knowledge Editing for Large Language Models Ningyu Zhang Yunzhi Yao Bo Tian Peng Wang Shumin Deng ... Lei Liang Qing Cui Xiao-Jun Zhu Jun Zhou Huajun Chen KELM 176 89 0 02 Jan 2024
Trace and Edit Relation Associations in GPT Jiahang Li Taoyu Chen Yuanli Wang KELM 41 4 0 30 Dec 2023
Do Androids Know They're Only Dreaming of Electric Sheep? Sky CH-Wang Benjamin Van Durme Jason Eisner Chris Kedzie HILM 98 35 0 28 Dec 2023
LLM Factoscope: Uncovering LLMs' Factual Discernment through Inner States Analysis Jinwen He Yujia Gong Kai-xiang Chen Zijin Lin Chengán Wei Yue Zhao 67 3 0 27 Dec 2023
PokeMQA: Programmable knowledge editing for Multi-hop Question Answering Hengrui Gu Kaixiong Zhou Xiaotian Han Ninghao Liu Ruobing Wang Xin Wang LRM KELM 128 27 0 23 Dec 2023
The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction Pratyusha Sharma Jordan T. Ash Dipendra Kumar Misra LRM 93 92 0 21 Dec 2023
Retrieval-augmented Multilingual Knowledge Editing Weixuan Wang Barry Haddow Alexandra Birch KELM 72 10 0 20 Dec 2023
On Early Detection of Hallucinations in Factual Question Answering Ben Snyder Marius Moisescu Muhammad Bilal Zafar HILM 128 28 0 19 Dec 2023
Neuron-Level Knowledge Attribution in Large Language Models Zeping Yu Sophia Ananiadou FAtt KELM 92 11 0 19 Dec 2023
MELO: Enhancing Model Editing with Neuron-Indexed Dynamic LoRA Lang Yu Qin Chen Jie Zhou Liang He KELM 103 58 0 19 Dec 2023
Vectorizing string entries for data processing on tables: when are larger language models better? Léo Grinsztajn Edouard Oyallon Myung Jun Kim Gaël Varoquaux 73 3 0 15 Dec 2023
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision Collin Burns Pavel Izmailov Jan Hendrik Kirchner Bowen Baker Leo Gao ... Adrien Ecoffet Manas Joglekar Jan Leike Ilya Sutskever Jeff Wu ELM 149 299 0 14 Dec 2023
Forbidden Facts: An Investigation of Competing Objectives in Llama-2 Tony T. Wang Miles Wang Kaivu Hariharan Nir Shavit 79 2 0 14 Dec 2023
Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models Alexandre Variengien Eric Winsor LRM ReLM 161 12 0 13 Dec 2023
Causality Analysis for Evaluating the Security of Large Language Models Wei Zhao Zhe Li Junfeng Sun 75 12 0 13 Dec 2023
Astrocyte-Enabled Advancements in Spiking Neural Networks for Large Language Modeling Guobin Shen Dongcheng Zhao Yiting Dong Yang Li Jindong Li Kang Sun Yi Zeng 98 6 0 12 Dec 2023
Emergence and Function of Abstract Representations in Self-Supervised Transformers Quentin RV. Ferry Joshua Ching Takashi Kawai 82 3 0 08 Dec 2023
Artificial Neural Nets and the Representation of Human Concepts Timo Freiesleben NAI 83 1 0 08 Dec 2023
DemoCaricature: Democratising Caricature Generation with a Rough Sketch Dar-Yen Chen A. Bhunia Subhadeep Koley Aneeshan Sain Pinaki Nath Chowdhury Yi-Zhe Song 94 8 0 07 Dec 2023
Improving Activation Steering in Language Models with Mean-Centring Ole Jorgensen Dylan R. Cope Nandi Schoots Murray Shanahan LLMSV 55 37 0 06 Dec 2023
Interpretability Illusions in the Generalization of Simplified Models Dan Friedman Andrew Kyle Lampinen Lucas Dixon Danqi Chen Asma Ghandeharioun 123 15 0 06 Dec 2023
Exploring the Reversal Curse and Other Deductive Logical Reasoning in BERT and GPT-Based Large Language Models Da Wu Jing Yang Kai Wang LRM 80 6 0 06 Dec 2023
DRAFT: Dense Retrieval Augmented Few-shot Topic classifier Framework Keonwoo Kim Younggun Lee VLM 57 1 0 05 Dec 2023
ArtAdapter: Text-to-Image Style Transfer using Multi-Level Style Encoder and Explicit Adaptation Dar-Yen Chen Hamish Tennent Ching-Wen Hsu DiffM 116 27 0 04 Dec 2023
Evaluating Dependencies in Fact Editing for Language Models: Specificity and Implication Awareness Zichao Li Ines Arous Siva Reddy Jackie CK Cheung KELM 60 13 0 04 Dec 2023
Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers Chi-Pin Huang Kai-Po Chang Chung-Ting Tsai Yung-Hsuan Lai Fu-En Yang Yu-Chiang Frank Wang DiffM 112 56 0 29 Nov 2023
Is This the Subspace You Are Looking for? An Interpretability Illusion for Subspace Activation Patching Aleksandar Makelov Georg Lange Neel Nanda 79 22 0 28 Nov 2023
DUnE: Dataset for Unified Editing Afra Feyza Akyürek Eric Pan Garry Kuwanto Derry Wijaya KELM 86 18 0 27 Nov 2023
CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image Personalization Ruoyu Zhao Mingrui Zhu Shiyin Dong Nannan Wang Xinbo Gao DiffM 68 12 0 24 Nov 2023
PrivateLoRA For Efficient Privacy Preserving LLM Yiming Wang Yu Lin Xiaodong Zeng Guannan Zhang 109 14 0 23 Nov 2023
Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents Zhuosheng Zhang Yao Yao Aston Zhang Xiangru Tang Xinbei Ma ... Yiming Wang Mark B. Gerstein Rui Wang Gongshen Liu Hai Zhao LLMAG LM&Ro LRM 153 61 0 20 Nov 2023
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning Yiming Wang Yu Lin Xiaodong Zeng Guannan Zhang MoMe 163 21 0 20 Nov 2023
Flexible Model Interpretability through Natural Language Model Editing Karel DÓosterlinck Thomas Demeester Chris Develder Christopher Potts MILM KELM 59 0 0 17 Nov 2023
Scaling TabPFN: Sketching and Feature Selection for Tabular Prior-Data Fitted Networks Ben Feuer Chinmay Hegde Niv Cohen 117 11 0 17 Nov 2023
Memory Augmented Language Models through Mixture of Word Experts Cicero Nogueira dos Santos James Lee-Thorp Isaac Noble Chung-Ching Chang David C. Uthus MoE 112 8 0 15 Nov 2023
Do Localization Methods Actually Localize Memorized Data in LLMs? A Tale of Two Benchmarks Ting-Yun Chang Jesse Thomason Robin Jia 100 19 0 15 Nov 2023
Assessing Knowledge Editing in Language Models via Relation Perspective Yifan Wei Xiaoyan Yu Huanhuan Ma Fangyu Lei Yixuan Weng Ran Song Kang Liu KELM 63 15 0 15 Nov 2023
Identifying Linear Relational Concepts in Large Language Models David Chanin Anthony Hunter Oana-Maria Camburu LLMSV KELM 83 4 0 15 Nov 2023
Can Large Language Models Follow Concept Annotation Guidelines? A Case Study on Scientific and Financial Domains Marcio Fonseca Shay B. Cohen ALM 64 6 0 15 Nov 2023
Towards Evaluating AI Systems for Moral Status Using Self-Reports Ethan Perez Robert Long ELM 75 12 0 14 Nov 2023
Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models Yujin Kim Jaehong Yoon Seonghyeon Ye Sangmin Bae Namgyu Ho Sung Ju Hwang Se-Young Yun KELM 112 13 0 14 Nov 2023
Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models Shiwen Ni Dingwei Chen Chengming Li Xiping Hu Ruifeng Xu Min Yang KELM MoMe 108 8 0 14 Nov 2023
Finding and Editing Multi-Modal Neurons in Pre-Trained Transformers Haowen Pan Yixin Cao Xiaozhi Wang Xun Yang Meng Wang KELM 108 27 0 13 Nov 2023
Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications Zhangyin Feng Weitao Ma Weijiang Yu Lei Huang Haotian Wang Qianglong Chen Weihua Peng Xiaocheng Feng Bing Qin Ting Liu KELM 80 40 0 10 Nov 2023
Deep Natural Language Feature Learning for Interpretable Prediction Felipe Urrutia Cristian Buc Valentin Barriere 80 2 0 09 Nov 2023
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions Lei Huang Weijiang Yu Weitao Ma Weihong Zhong Zhangyin Feng ... Qianglong Chen Weihua Peng Xiaocheng Feng Bing Qin Ting Liu LRM HILM 148 939 0 09 Nov 2023
Future Lens: Anticipating Subsequent Tokens from a Single Hidden State Koyena Pal Jiuding Sun Andrew Yuan Byron C. Wallace David Bau 76 59 0 08 Nov 2023
Massive Editing for Large Language Models via Meta Learning Chenmien Tan Ge Zhang Jie Fu KELM 113 43 0 08 Nov 2023
Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models Michael Lan Phillip H. S. Torr Fazl Barez LRM 68 3 0 07 Nov 2023
The Linear Representation Hypothesis and the Geometry of Large Language Models Kiho Park Yo Joong Choe Victor Veitch LLMSV MILM 188 190 0 07 Nov 2023