Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

9 October 2024

Jiancheng Liu

Sijia Liu

Papers citing "Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning"

14 / 64 papers shown

Title
Knowledge Unlearning for Mitigating Privacy Risks in Language Models Joel Jang Dongkeun Yoon Sohee Yang Sungmin Cha Moontae Lee Lajanugen Logeswaran Minjoon Seo KELM PILM MU 175 221 0 04 Oct 2022
Federated Unlearning: How to Efficiently Erase a Client in FL? Anisa Halimi S. Kadhe Ambrish Rawat Nathalie Baracaldo MU 57 129 0 12 Jul 2022
Certified Graph Unlearning Eli Chien Chao Pan O. Milenkovic MU 60 39 0 18 Jun 2022
Quark: Controllable Text Generation with Reinforced Unlearning Ximing Lu Sean Welleck Jack Hessel Liwei Jiang Lianhui Qin Peter West Prithviraj Ammanabrolu Yejin Choi MU 99 216 0 26 May 2022
Continual Learning and Private Unlearning B. Liu Qian Liu Peter Stone CLL MU 36 50 0 24 Mar 2022
The Right to be Forgotten in Federated Learning: An Efficient Realization with Rapid Retraining Yi Liu Lei Xu Lizhen Qu Cong Wang Bo Li MU 49 146 0 14 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 771 12,835 0 04 Mar 2022
Backdoor Defense with Machine Unlearning Yang Liu Mingyuan Fan Cen Chen Ximeng Liu Zhuo Ma Li Wang Jianfeng Ma AAML 52 75 0 24 Jan 2022
Unrolling SGD: Understanding Factors Influencing Machine Unlearning Anvith Thudi Gabriel Deza Varun Chandrasekaran Nicolas Papernot MU 68 178 0 27 Sep 2021
Machine Unlearning of Features and Labels Alexander Warnecke Lukas Pirch Christian Wressnegger Konrad Rieck MU 57 186 0 26 Aug 2021
Graph Unlearning Min Chen Zhikun Zhang Tianhao Wang Michael Backes Mathias Humbert Yang Zhang MU 38 146 0 27 Mar 2021
Machine Unlearning Lucas Bourtoule Varun Chandrasekaran Christopher A. Choquette-Choo Hengrui Jia Adelin Travers Baiwu Zhang David Lie Nicolas Papernot MU 112 861 0 09 Dec 2019
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 452 1,717 0 18 Sep 2019
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 134 3,288 0 12 Jun 2017