v1v2v3v4v5 (latest)

Locating and Editing Factual Associations in GPT

10 February 2022

Papers citing "Locating and Editing Factual Associations in GPT"

50 / 1,056 papers shown

Title
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries Hitesh Wadhwa Rahul Seetharaman Somyaa Aggarwal Reshmi Ghosh Samyadeep Basu Soundararajan Srinivasan Wenlong Zhao Shreyas Chaudhari Ehsan Aghazadeh RALM 84 6 0 18 Jun 2024
Hopping Too Late: Exploring the Limitations of Large Language Models on Multi-Hop Queries Eden Biran Daniela Gottesman Sohee Yang Mor Geva Amir Globerson LRM 88 43 0 18 Jun 2024
Estimating Knowledge in Large Language Models Without Generating a Single Token Daniela Gottesman Mor Geva 103 14 0 18 Jun 2024
From Insights to Actions: The Impact of Interpretability and Analysis Research on NLP Marius Mosbach Vagrant Gautam Tomás Vergara-Browne Dietrich Klakow Mor Geva AI4CE 82 10 0 18 Jun 2024
Adaptive Token Biaser: Knowledge Editing via Biasing Key Entities Baolong Bi Shenghua Liu Yiwei Wang Lingrui Mei Hongcheng Gao Yilong Xu Xueqi Cheng KELM 70 11 0 18 Jun 2024
Retrieval Meets Reasoning: Dynamic In-Context Editing for Long-Text Understanding Weizhi Fei Xueyan Niu Guoqing Xie Yanhua Zhang Bo Bai Lei Deng Wei Han LRM KELM RALM 85 6 0 18 Jun 2024
An Investigation of Neuron Activation as a Unified Lens to Explain Chain-of-Thought Eliciting Arithmetic Reasoning of LLMs Daking Rai Ziyu Yao LRM 90 10 0 18 Jun 2024
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models Somnath Banerjee Soham Tripathy Sayan Layek Shanu Kumar Animesh Mukherjee Rima Hazra 97 7 0 18 Jun 2024
A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning Lijie Hu Liang Liu Shu Yang Xin Chen Hongru Xiao Mengdi Li Pan Zhou Muhammad Asif Ali Di Wang LRM 156 7 0 18 Jun 2024
InternalInspector $I^2$ : Robust Confidence Estimation in LLMs through Internal States Mohammad Beigi Ying Shen Runing Yang Zihao Lin Qifan Wang Ankith Mohan Jianfeng He Ming Jin Chang-Tien Lu Lifu Huang HILM 83 10 0 17 Jun 2024
Soft Prompting for Unlearning in Large Language Models Karuna Bhaila Minh-Hao Van Xintao Wu MU KELM 81 8 0 17 Jun 2024
Language Modeling with Editable External Knowledge Belinda Z. Li Emmy Liu Alexis Ross Abbas Zeitoun Graham Neubig Jacob Andreas KELM 95 5 0 17 Jun 2024
Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations Rima Hazra Sayan Layek Somnath Banerjee Soujanya Poria KELM LLMSV 79 13 0 17 Jun 2024
Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces Yihuai Hong Lei Yu Shauli Ravfogel Haiqin Yang Mor Geva KELM MU 133 24 0 17 Jun 2024
MEMLA: Enhancing Multilingual Knowledge Editing with Neuron-Masked Low-Rank Adaptation Jiakuan Xie Pengfei Cao Yuheng Chen Yubo Chen Kang Liu Jun Zhao KELM 105 6 0 17 Jun 2024
CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG Boyi Deng Wenjie Wang Fengbin Zhu Qifan Wang Fuli Feng 103 9 0 17 Jun 2024
A Complete Survey on LLM-based AI Chatbots Sumit Kumar Dam Choong Seon Hong Yu Qiao Chaoning Zhang 104 62 0 17 Jun 2024
Self-training Large Language Models through Knowledge Detection Wei Jie Yeo Teddy Ferdinan Przemyslaw Kazienko Ranjan Satapathy Erik Cambria 107 10 0 17 Jun 2024
The Fall of ROME: Understanding the Collapse of LLMs in Model Editing Wanli Yang Fei Sun Jiajun Tan Xinyu Ma Du Su D. Yin Huawei Shen KELM 49 1 0 17 Jun 2024
SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad CoGe 94 12 0 17 Jun 2024
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance Somnath Banerjee Avik Halder Rajarshi Mandal Sayan Layek Ian Soboroff Rima Hazra Animesh Mukherjee 165 1 0 17 Jun 2024
In-Context Editing: Learning Knowledge from Self-Induced Distributions Siyuan Qi Bangcheng Yang Kailin Jiang Xiaobo Wang Jiaqi Li Yifan Zhong Yaodong Yang Zilong Zheng KELM 202 10 0 17 Jun 2024
RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models Zhuoran Jin Pengfei Cao Chenhao Wang Zhitao He Hongbang Yuan Jiachun Li Yubo Chen Kang Liu Jun Zhao KELM MU 137 26 0 16 Jun 2024
Teaching Large Language Models to Express Knowledge Boundary from Their Own Signals Lida Chen Zujie Liang Xintao Wang Jiaqing Liang Yanghua Xiao Feng Wei Jinglei Chen Zhenghong Hao Bing Han Wei Wang 76 16 0 16 Jun 2024
RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning Haoyu Wang Tianci Liu Ruirui Li Monica Cheng Tuo Zhao Jing Gao 67 11 0 16 Jun 2024
DIEKAE: Difference Injection for Efficient Knowledge Augmentation and Editing of Large Language Models Alessio Galatolo Meriem Beloucif Katie Winkle 65 0 0 15 Jun 2024
Knowledge Editing in Language Models via Adapted Direct Preference Optimization Amit Rozner Barak Battash Lior Wolf Ofir Lindenbaum KELM 112 14 0 14 Jun 2024
REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space Tomer Ashuach Martin Tutek Yonatan Belinkov MU KELM 187 7 0 13 Jun 2024
Research Trends for the Interplay between Large Language Models and Knowledge Graphs H. Khorashadizadeh Fatima Zahra Amara Morteza Ezzabady Frédéric Ieng Sanju Tiwari Nandana Mihindukulasooriya Jinghua Groppe S. Sahri Farah Benamara Sven Groppe 112 10 0 12 Jun 2024
Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL Zijin Hong Zheng Yuan Qinggang Zhang Hao Chen Junnan Dong Feiran Huang Xiao Huang 203 74 0 12 Jun 2024
Towards Lifelong Learning of Large Language Models: A Survey Junhao Zheng Shengjie Qiu Chengming Shi Qianli Ma KELM CLL 86 28 0 10 Jun 2024
The Curse of Popularity: Popular Entities have Catastrophic Side Effects when Deleting Knowledge from Language Models Ryosuke Takahashi Go Kamoda Benjamin Heinzerling Keisuke Sakaguchi Kentaro Inui MU KELM 88 0 0 10 Jun 2024
MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter Jitai Hao Weiwei Sun Xin Xin Qi Meng Zhumin Chen Fajie Yuan Zhaochun Ren MoE 81 5 0 07 Jun 2024
Time Sensitive Knowledge Editing through Efficient Finetuning Xiou Ge Ali Mousavi Edouard Grave Armand Joulin Kun Qian Benjamin Han Mostafa Arefiyan Yunyao Li KELM 89 9 0 06 Jun 2024
Improving Alignment and Robustness with Circuit Breakers Andy Zou Long Phan Justin Wang Derek Duenas Maxwell Lin Maksym Andriushchenko Rowan Wang Zico Kolter Matt Fredrikson Dan Hendrycks AAML 147 114 0 06 Jun 2024
Understanding Information Storage and Transfer in Multi-modal Large Language Models Samyadeep Basu Martin Grayson C. Morrison Besmira Nushi Soheil Feizi Daniela Massiceti 95 12 0 06 Jun 2024
Memorization in deep learning: A survey Jiaheng Wei Yanjun Zhang Leo Yu Zhang Ming Ding Chao Chen Kok-Leong Ong Jun Zhang Yang Xiang 121 7 0 06 Jun 2024
Interpreting the Second-Order Effects of Neurons in CLIP Yossi Gandelsman Alexei A. Efros Jacob Steinhardt MILM 141 24 0 06 Jun 2024
Outdated Issue Aware Decoding for Reasoning Questions on Edited Knowledge Zengkui Sun Yijin Liu Jiaan Wang Fandong Meng Jinan Xu Jinan Xu Jie Zhou KELM 84 0 0 05 Jun 2024
Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers Brian K Chen Tianyang Hu Hui Jin Hwee Kuan Lee Kenji Kawaguchi 97 2 0 05 Jun 2024
Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller Min Cai Yuchen Zhang Shichang Zhang Fan Yin Difan Zou Yisong Yue Ziniu Hu 103 1 0 04 Jun 2024
LoFiT: Localized Fine-tuning on LLM Representations Fangcong Yin Xi Ye Greg Durrett 106 23 0 03 Jun 2024
Decoupled Alignment for Robust Plug-and-Play Adaptation Haozheng Luo Jiahao Yu Wenxin Zhang Jialong Li Jerry Yao-Chieh Hu Xingyu Xing Han Liu 108 11 0 03 Jun 2024
Understanding Token Probability Encoding in Output Embeddings Hakaze Cho Yoshihiro Sakai Kenshiro Tanaka Mariko Kato Naoya Inoue 84 2 0 03 Jun 2024
Editing the Mind of Giants: An In-Depth Exploration of Pitfalls of Knowledge Editing in Large Language Models Cheng-Hsun Hsueh Paul Kuo-Ming Huang Tzu-Han Lin Che-Wei Liao Hung-Chieh Fang Chao-Wei Huang Yun-Nung Chen KELM 84 6 0 03 Jun 2024
From Feature Visualization to Visual Circuits: Effect of Adversarial Model Manipulation Géraldin Nanfack Michael Eickenberg Eugene Belilovsky FAtt AAML GNN 99 1 0 03 Jun 2024
Position: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience Martina G. Vilas Federico Adolfi David Poeppel Gemma Roig 115 6 0 03 Jun 2024
Evidence of Learned Look-Ahead in a Chess-Playing Neural Network Erik Jenner Shreyas Kapur Vasil Georgiev Cameron Allen Scott Emmons Stuart J. Russell 115 13 0 02 Jun 2024
DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models Taolin Zhang Qizhou Chen Dongyang Li Chengyu Wang Xiaofeng He Longtao Huang Hui Xue Junyuan Huang CLL KELM 84 6 0 31 May 2024
Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries Jiahao Yu Haozheng Luo Jerry Yao-Chieh Hu Wenbo Guo Han Liu Xinyu Xing 113 21 0 31 May 2024