Position: Editing Large Language Models Poses Serious Safety Risks

v1v2v3 (latest)

Position: Editing Large Language Models Poses Serious Safety Risks

5 February 2025

Jorg Schlotterer

ArXiv (abs)PDF HTML

Papers citing "Position: Editing Large Language Models Poses Serious Safety Risks"

5 / 5 papers shown

Title
Detoxification of Large Language Models through Output-layer Fusion with a Calibration Model Yuanhe Tian Mingjie Deng Guoqing Jin Yan Song MU KELM 63 0 0 02 Jun 2025
Tracing and Reversing Rank-One Model Edits Paul Youssef Zhixue Zhao C. Seifert Jorg Schlotterer KELM 35 0 0 27 May 2025
Breaking Bad Tokens: Detoxification of LLMs Using Sparse Autoencoders Agam Goyal Vedant Rathi William Yeh Yian Wang Yuen Chen Hari Sundaram 105 0 0 20 May 2025
EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models Ziwen Xu Shuxun Wang Kewei Xu Haoming Xu Mengru Wang Xinle Deng Yunzhi Yao Guozhou Zheng Ningyu Zhang Xin Xu KELM LLMSV 483 1 0 21 Apr 2025
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems Chenxi Wang Jizhan Fang Xiang Chen Bozhong Tian Ziwen Xu Hong Chen N. Zhang KELM 143 0 0 26 Mar 2025