Who's Harry Potter? Approximate Unlearning in LLMs

3 October 2023

Papers citing "Who's Harry Potter? Approximate Unlearning in LLMs"

50 / 53 papers shown

Title
Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness Hanyu Duan Yi Yang Ahmed Abbasi Kar Yan Tam MU OnRL 24 0 0 16 May 2025
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation Stefan Vasilev Christian Herold Baohao Liao Seyyed Hadi Hashemi Shahram Khadivi Christof Monz MU 159 0 0 09 May 2025
OBLIVIATE: Robust and Practical Machine Unlearning for Large Language Models Xiaoyu Xu Minxin Du Qingqing Ye Haibo Hu MU 57 0 0 07 May 2025
Unlearning vs. Obfuscation: Are We Truly Removing Knowledge? Guangzhi Sun Potsawee Manakul Xiao Zhan Mark J. F. Gales MU 61 0 0 05 May 2025
Certified Mitigation of Worst-Case LLM Copyright Infringement Jingyu Zhang Jiacan Yu Marc Marone Benjamin Van Durme Daniel Khashabi MoMe 158 0 0 22 Apr 2025
Not All Data Are Unlearned Equally Aravind Krishnan Siva Reddy Marius Mosbach MU 157 1 0 07 Apr 2025
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging Haoming Xu Shuxun Wang Yanqiu Zhao Yi Zhong Ziyan Jiang Ningyuan Zhao Shumin Deng Hongyu Chen N. Zhang MoMe MU 72 0 0 27 Mar 2025
Effective Skill Unlearning through Intervention and Abstention Yongce Li Chung-En Sun Tsui-Wei Weng MU 163 0 0 27 Mar 2025
UIPE: Enhancing LLM Unlearning by Removing Knowledge Related to Forgetting Targets Wenyu Wang Hao Fei Xiaotian Ye Z. Z. Ren Ziyang Chen Pengjie Ren MU KELM 183 0 0 06 Mar 2025
A General Framework to Enhance Fine-tuning-based LLM Unlearning J. Ren Zhenwei Dai Xianfeng Tang Hui Liu Jingying Zeng ... R. Goutam Suhang Wang Yue Xing Qi He Hui Liu MU 163 1 0 25 Feb 2025
Model Lakes Koyena Pal David Bau Renée J. Miller 67 0 0 24 Feb 2025
UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning Vaidehi Patil Elias Stengel-Eskin Joey Tianyi Zhou MU CLL 78 2 0 20 Feb 2025
LUME: LLM Unlearning with Multitask Evaluations Anil Ramakrishna Yixin Wan Xiaomeng Jin Kai-Wei Chang Zhiqi Bu Bhanukiran Vinzamuri V. Cevher Mingyi Hong Rahul Gupta CLL MU 109 7 0 20 Feb 2025
SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning Junkai Chen Zhijie Deng Kening Zheng Yibo Yan Shuliang Liu PeiJun Wu Peijie Jiang Jiaheng Liu Xuming Hu MU 69 3 0 18 Feb 2025
Which Retain Set Matters for LLM Unlearning? A Case Study on Entity Unlearning Hwan Chang Hwanhee Lee MU 47 0 0 17 Feb 2025
ReLearn: Unlearning via Learning for Large Language Models Haoming Xu Ningyuan Zhao Liming Yang Sendong Zhao Shumin Deng Mengru Wang Bryan Hooi Nay Oo H. Chen N. Zhang KELM CLL MU 171 0 0 16 Feb 2025
Privacy in Fine-tuning Large Language Models: Attacks, Defenses, and Future Directions Hao Du Shang Liu Lele Zheng Yang Cao Atsuyoshi Nakamura Lei Chen AAML 114 3 0 21 Dec 2024
Unified Parameter-Efficient Unlearning for LLMs Chenlu Ding Jiancan Wu Yancheng Yuan Jinda Lu Kai Zhang Alex Su Xiang Wang Xiangnan He MU KELM 100 6 0 30 Nov 2024
A Review on Machine Unlearning Haibo Zhang Toru Nakamura Takamasa Isohara Kouichi Sakurai AILaw PILM MU 93 47 0 18 Nov 2024
RESTOR: Knowledge Recovery through Machine Unlearning Keivan Rezaei Khyathi Raghavi Chandu S. Feizi Yejin Choi Faeze Brahman Abhilasha Ravichander KELM CLL MU 58 0 0 31 Oct 2024
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate Zhiqi Bu Xiaomeng Jin Bhanukiran Vinzamuri Anil Ramakrishna Kai-Wei Chang V. Cevher Mingyi Hong MU 88 6 0 29 Oct 2024
CLEAR: Character Unlearning in Textual and Visual Modalities Alexey Dontsov Dmitrii Korzh Alexey Zhavoronkin Boris Mikheev Denis Bobkov Aibek Alanov Oleg Y. Rogov Ivan Oseledets Elena Tutubalina AILaw VLM MU 66 5 0 23 Oct 2024
WAGLE: Strategic Weight Attribution for Effective and Modular Unlearning in Large Language Models Jinghan Jia Jiancheng Liu Yihua Zhang Parikshit Ram Nathalie Baracaldo Sijia Liu MU 35 2 0 23 Oct 2024
Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization Phillip Guo Aaquib Syed Abhay Sheshadri Aidan Ewart Gintare Karolina Dziugaite KELM MU 38 5 0 16 Oct 2024
Reconstruction of Differentially Private Text Sanitization via Large Language Models Shuchao Pang Zhigang Lu Haoran Wang Peng Fu Yongbin Zhou Minhui Xue AAML 58 4 0 16 Oct 2024
Do Unlearning Methods Remove Information from Language Model Weights? Aghyad Deeb Fabien Roger AAML MU 47 14 0 11 Oct 2024
A Closer Look at Machine Unlearning for Large Language Models Xiaojian Yuan Tianyu Pang Chao Du Kejiang Chen Weiming Zhang Min-Bin Lin MU 41 5 0 10 Oct 2024
Dissecting Fine-Tuning Unlearning in Large Language Models Yihuai Hong Yuelin Zou Lijie Hu Ziqian Zeng Di Wang Haiqin Yang AAML MU 42 2 0 09 Oct 2024
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models Yan Scholten Stephan Günnemann Leo Schwinn MU 60 6 0 04 Oct 2024
Mitigating Memorization In Language Models Mansi Sakarvadia Aswathy Ajith Arham Khan Nathaniel Hudson Caleb Geniesse Kyle Chard Yaoqing Yang Ian Foster Michael W. Mahoney KELM MU 58 1 0 03 Oct 2024
Position: LLM Unlearning Benchmarks are Weak Measures of Progress Pratiksha Thaker Shengyuan Hu Neil Kale Yash Maurya Zhiwei Steven Wu Virginia Smith MU 53 10 0 03 Oct 2024
An Adversarial Perspective on Machine Unlearning for AI Safety Jakub Łucki Boyi Wei Yangsibo Huang Peter Henderson F. Tramèr Javier Rando MU AAML 73 32 0 26 Sep 2024
Alternate Preference Optimization for Unlearning Factual Knowledge in Large Language Models Anmol Mekala Vineeth Dorna Shreya Dubey Abhishek Lalwani David Koleczek Mukund Rungta Sadid Hasan Elita Lobo KELM MU 38 2 0 20 Sep 2024
Tamper-Resistant Safeguards for Open-Weight LLMs Rishub Tamirisa Bhrugu Bharathi Long Phan Andy Zhou Alice Gatti ... Andy Zou Dawn Song Bo Li Dan Hendrycks Mantas Mazeika AAML MU 53 42 0 01 Aug 2024
Strong Copyright Protection for Language Models via Adaptive Model Fusion Javier Abad Konstantin Donhauser Francesco Pinto Fanny Yang 45 4 0 29 Jul 2024
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models Haoyu Tang Ye Liu Xukai Liu Xukai Liu Yanghai Zhang Kai Zhang Xiaofang Zhou Enhong Chen MU 75 3 0 25 Jul 2024
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs Zhenhua Liu Tong Zhu Chuanyuan Tan Wenliang Chen PILM MU 53 8 0 14 Jul 2024
Composable Interventions for Language Models Arinbjorn Kolbeinsson Kyle O'Brien Tianjin Huang Shanghua Gao Shiwei Liu ... Anurag J. Vaidya Faisal Mahmood Marinka Zitnik Tianlong Chen Thomas Hartvigsen KELM MU 89 5 0 09 Jul 2024
To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models Bozhong Tian Xiaozhuan Liang Siyuan Cheng Qingbin Liu Mengru Wang Dianbo Sui Xi Chen Huajun Chen Ningyu Zhang MU 35 6 0 02 Jul 2024
Towards Scalable Exact Machine Unlearning Using Parameter-Efficient Fine-Tuning Somnath Basu Roy Chowdhury Krzysztof Choromanski Arijit Sehanobish Avinava Dubey Snigdha Chaturvedi MU 61 7 0 24 Jun 2024
REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space Tomer Ashuach Martin Tutek Yonatan Belinkov KELM MU 71 4 0 13 Jun 2024
A Survey on Machine Unlearning: Techniques and New Emerged Privacy Risks Hengzhu Liu Ping Xiong Tianqing Zhu Philip S. Yu 35 6 0 10 Jun 2024
Large Scale Knowledge Washing Yu-Xiang Wang Ruihan Wu Zexue He Xinyu Chen Julian McAuley MU KELM 77 5 0 26 May 2024
Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models Jiaqi Li Qianshan Wei Chuanyi Zhang Guilin Qi Miaozeng Du Yongrui Chen Sheng Bi Fan Liu VLM MU 72 12 0 21 May 2024
SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning Jinghan Jia Yihua Zhang Yimeng Zhang Jiancheng Liu Bharat Runwal James Diffenderfer B. Kailkhura Sijia Liu MU 43 35 0 28 Apr 2024
Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs Valeriia Cherepanova James Zou AAML 33 4 0 26 Apr 2024
A Little Leak Will Sink a Great Ship: Survey of Transparency for Large Language Models from Start to Finish Masahiro Kaneko Timothy Baldwin PILM 28 3 0 24 Mar 2024
Corrective Machine Unlearning Shashwat Goel Ameya Prabhu Philip Torr Ponnurangam Kumaraguru Amartya Sanyal OnRL 40 14 0 21 Feb 2024
Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space Leo Schwinn David Dobre Sophie Xhonneux Gauthier Gidel Stephan Gunnemann AAML 51 38 0 14 Feb 2024
TOFU: A Task of Fictitious Unlearning for LLMs Pratyush Maini Zhili Feng Avi Schwarzschild Zachary Chase Lipton J. Zico Kolter MU CLL 38 142 0 11 Jan 2024