FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in
LLMs

FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in LLMs

12 December 2023

Nathalie Baracaldo

ArXiv (abs)PDF HTML

Papers citing "FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in LLMs"

17 / 17 papers shown

Title
Unified Parameter-Efficient Unlearning for LLMs Chenlu Ding Jiancan Wu Yancheng Yuan Jinda Lu Kai Zhang Alex Su Xiang Wang Xiangnan He MU KELM 155 8 0 30 Nov 2024
Threats, Attacks, and Defenses in Machine Unlearning: A Survey Ziyao Liu Huanyi Ye Chen Chen Yongsen Zheng K. Lam AAML MU 97 32 0 20 Mar 2024
Quantifying Memorization Across Neural Language Models Nicholas Carlini Daphne Ippolito Matthew Jagielski Katherine Lee Florian Tramèr Chiyuan Zhang PILM 124 628 0 15 Feb 2022
Unrolling SGD: Understanding Factors Influencing Machine Unlearning Anvith Thudi Gabriel Deza Varun Chandrasekaran Nicolas Papernot MU 114 182 0 27 Sep 2021
Quantifying Social Biases in NLP: A Generalization and Empirical Comparison of Extrinsic Fairness Metrics Paula Czarnowska Yogarshi Vyas Kashif Shah 70 110 0 28 Jun 2021
Does BERT Pretrained on Clinical Notes Reveal Sensitive Data? Eric P. Lehman Sarthak Jain Karl Pichotta Yoav Goldberg Byron C. Wallace OOD MIACV 60 121 0 15 Apr 2021
Remember What You Want to Forget: Algorithms for Machine Unlearning Ayush Sekhari Jayadev Acharya Gautam Kamath A. Suresh FedML MU 86 314 0 04 Mar 2021
Stereotype and Skew: Quantifying Gender Bias in Pre-trained and Fine-tuned Language Models Daniel de Vassimon Manela D. Errington Thomas Fisher B. V. Breugel Pasquale Minervini 43 94 0 24 Jan 2021
HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection Binny Mathew Punyajoy Saha Seid Muhie Yimam Chris Biemann Pawan Goyal Animesh Mukherjee 120 578 0 18 Dec 2020
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown Basel Alomair Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 504 1,943 0 14 Dec 2020
Social Biases in NLP Models as Barriers for Persons with Disabilities Ben Hutchinson Vinodkumar Prabhakaran Emily L. Denton Kellie Webster Yu Zhong Stephen Denuyl 66 313 0 02 May 2020
Approximate Data Deletion from Machine Learning Models Zachary Izzo Mary Anne Smart Kamalika Chaudhuri James Zou MU 72 264 0 24 Feb 2020
Eternal Sunshine of the Spotless Net: Selective Forgetting in Deep Networks Aditya Golatkar Alessandro Achille Stefano Soatto CLL MU 78 503 0 12 Nov 2019
Certified Data Removal from Machine Learning Models Chuan Guo Tom Goldstein Awni Y. Hannun Laurens van der Maaten MU 110 450 0 08 Nov 2019
Machine Learning Testing: Survey, Landscapes and Horizons Jie M. Zhang Mark Harman Lei Ma Yang Liu VLM AILaw 80 752 0 19 Jun 2019
The Frontiers of Fairness in Machine Learning Alexandra Chouldechova Aaron Roth FaML 194 416 0 20 Oct 2018
Equality of Opportunity in Supervised Learning Moritz Hardt Eric Price Nathan Srebro FaML 233 4,329 0 07 Oct 2016