Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes

Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes

3 February 2024

Isabel O. Gallegos

Md Mehrab Tanjim

Hanieh Deilamsalehy

Sungchul Kim

Franck Dernoncourt

Papers citing "Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes"

14 / 14 papers shown

Title
Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs Angelina Wang Michelle Phan Daniel E. Ho Sanmi Koyejo 75 2 0 04 Feb 2025
Using In-Context Learning to Improve Dialogue Safety Nicholas Meade Spandana Gella Devamanyu Hazarika Prakhar Gupta Di Jin Siva Reddy Yang Liu Dilek Z. Hakkani-Tür 60 40 0 02 Feb 2023
Large Language Models Can Self-Improve Jiaxin Huang S. Gu Le Hou Yuexin Wu Xuezhi Wang Hongkun Yu Jiawei Han ReLM AI4MH LRM 102 594 0 20 Oct 2022
Quark: Controllable Text Generation with Reinforced Unlearning Ximing Lu Sean Welleck Jack Hessel Liwei Jiang Lianhui Qin Peter West Prithviraj Ammanabrolu Yejin Choi MU 87 211 0 26 May 2022
DExperts: Decoding-Time Controlled Text Generation with Experts and Anti-Experts Alisa Liu Maarten Sap Ximing Lu Swabha Swayamdipta Chandra Bhagavatula Noah A. Smith Yejin Choi MU 71 364 0 07 May 2021
First the worst: Finding better gender translations during beam search D. Saunders Rosie Sallis Bill Byrne 33 28 0 15 Apr 2021
They, Them, Theirs: Rewriting with Gender-Neutral English Tony Sun Kellie Webster Apurva Shah William Yang Wang Melvin Johnson 42 60 0 12 Feb 2021
Debiasing Pre-trained Contextualised Embeddings Masahiro Kaneko Danushka Bollegala 229 140 0 23 Jan 2021
Persistent Anti-Muslim Bias in Large Language Models Abubakar Abid Maheen Farooqi James Zou AILaw 63 545 0 14 Jan 2021
Measuring and Reducing Gendered Correlations in Pre-trained Models Kellie Webster Xuezhi Wang Ian Tenney Alex Beutel Emily Pitler Ellie Pavlick Jilin Chen Ed Chi Slav Petrov FaML 46 256 0 12 Oct 2020
GeDi: Generative Discriminator Guided Sequence Generation Ben Krause Akhilesh Deepak Gotmare Bryan McCann N. Keskar Shafiq Joty R. Socher Nazneen Rajani 74 398 0 14 Sep 2020
Language (Technology) is Power: A Critical Survey of "Bias" in NLP Su Lin Blodgett Solon Barocas Hal Daumé Hanna M. Wallach 81 1,211 0 28 May 2020
Plug and Play Language Models: A Simple Approach to Controlled Text Generation Sumanth Dathathri Andrea Madotto Janice Lan Jane Hung Eric Frank Piero Molino J. Yosinski Rosanne Liu KELM 88 957 0 04 Dec 2019
Gender Bias in Neural Natural Language Processing Kaiji Lu Piotr (Peter) Mardziel Fangjing Wu Preetam Amancharla Anupam Datta 61 352 0 31 Jul 2018