Fairness in Large Language Models: A Taxonomic Survey

31 March 2024

Wenbin Zhang

Papers citing "Fairness in Large Language Models: A Taxonomic Survey"

50 / 65 papers shown

Title
Improving Fairness in LLMs Through Testing-Time Adversaries Isabela Pereira Gregio Ian Pons Anna Helena Reali Costa Artur Jordao AAML 70 0 0 17 May 2025
Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks Mohammad Saleha Azadeh Tabatabaeib 90 0 0 14 Apr 2025
Enhancements for Developing a Comprehensive AI Fairness Assessment Standard Avinash Agarwal Mayashankar Kumar Manisha J Nene 369 1 0 10 Apr 2025
Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset Khaoula Chehbouni Jonathan Colaço-Carr Yash More Jackie CK Cheung G. Farnadi 130 1 0 12 Nov 2024
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models Song Wang Peng Wang Tong Zhou Yushun Dong Zhen Tan Jundong Li CoGe 98 8 0 02 Jul 2024
DUnE: Dataset for Unified Editing Afra Feyza Akyürek Eric Pan Garry Kuwanto Derry Wijaya KELM 54 18 0 27 Nov 2023
Evaluating Large Language Models: A Comprehensive Survey Zishan Guo Renren Jin Chuang Liu Yufei Huang Dan Shi ... Linhao Yu Yan Liu Jiaxuan Li Bojian Xiong Deyi Xiong ELM LM&MA 53 187 0 30 Oct 2023
"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters Yixin Wan George Pu Jiao Sun Aparna Garimella Kai-Wei Chang Nanyun Peng 84 186 0 13 Oct 2023
All Languages Matter: On the Multilingual Safety of Large Language Models Wenxuan Wang Zhaopeng Tu Chang Chen Youliang Yuan Jen-tse Huang Wenxiang Jiao Michael R. Lyu ALM LRM 61 33 0 02 Oct 2023
Gender bias and stereotypes in Large Language Models Hadas Kotek Rikker Dockum David Q. Sun 101 224 0 28 Aug 2023
Bound by the Bounty: Collaboratively Shaping Evaluation Processes for Queer AI Harms Organizers of QueerInAI Nathaniel Dennler Anaelia Ovalle Ashwin Singh Luca Soldaini ... Kyra Yee Irene Font Peradejordi Zeerak Talat Mayra Russo Jessica de Jesus de Pinho Pinhal 41 15 0 15 Jul 2023
Queer People are People First: Deconstructing Sexual Identity Stereotypes in Large Language Models Harnoor Dhingra Preetiha Jayashanker Sayali S. Moghe Emma Strubell 55 13 0 30 Jun 2023
Editing Large Language Models: Problems, Methods, and Opportunities Yunzhi Yao Peng Wang Bo Tian Shuyang Cheng Zhoubo Li Shumin Deng Huajun Chen Ningyu Zhang KELM 67 302 0 22 May 2023
When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks Eve Fleisig Rediet Abebe Dan Klein 51 49 0 11 May 2023
Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language Models Emilio Ferrara SILM 88 254 0 07 Apr 2023
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection Kai Greshake Sahar Abdelnabi Shailesh Mishra C. Endres Thorsten Holz Mario Fritz SILM 115 483 0 23 Feb 2023
Legal Prompting: Teaching a Language Model to Think Like a Lawyer Fang Yu Lee Quartey Frank Schilder ELM LRM 32 65 0 02 Dec 2022
ADEPT: A DEbiasing PrompT Framework Ke Yang Charles Yu Yi R. Fung Manling Li Heng Ji 81 24 0 10 Nov 2022
Scaling Instruction-Finetuned Language Models Hyung Won Chung Le Hou Shayne Longpre Barret Zoph Yi Tay ... Jacob Devlin Adam Roberts Denny Zhou Quoc V. Le Jason W. Wei ReLM LRM 167 3,110 0 20 Oct 2022
BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation Tianxiang Sun Junliang He Xipeng Qiu Xuanjing Huang 69 47 0 14 Oct 2022
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng Zhang Yuxiao Dong Jie Tang BDL LRM 342 1,090 0 05 Oct 2022
"I'm sorry to hear that": Finding New Biases in Language Models with a Holistic Descriptor Dataset Eric Michael Smith Melissa Hall Melanie Kambadur Eleonora Presani Adina Williams 96 141 0 18 May 2022
Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross CoGe 87 424 0 07 Apr 2022
PaLM: Scaling Language Modeling with Pathways Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma Gaurav Mishra ... Kathy Meier-Hellstern Douglas Eck J. Dean Slav Petrov Noah Fiedel PILM LRM 420 6,202 0 05 Apr 2022
A Survey on Bias and Fairness in Natural Language Processing Rajas Bansal SyDa 33 14 0 06 Mar 2022
A New Generation of Perspective API: Efficient Multilingual Character-level Transformers Alyssa Lees Vinh Q. Tran Yi Tay Jeffrey Scott Sorensen Jai Gupta Donald Metzler Lucy Vasserman 78 189 0 22 Feb 2022
Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models Wei Ping Ming-Yu Liu Chaowei Xiao Peng Xu M. Patwary Mohammad Shoeybi Yue Liu Anima Anandkumar Bryan Catanzaro 70 69 0 08 Feb 2022
Red Teaming Language Models with Language Models Ethan Perez Saffron Huang Francis Song Trevor Cai Roman Ring John Aslanides Amelia Glaese Nat McAleese G. Irving AAML 131 645 0 07 Feb 2022
Ethical and social risks of harm from Language Models Laura Weidinger John F. J. Mellor Maribeth Rauh Conor Griffin J. Uesato ... Lisa Anne Hendricks William S. Isaac Sean Legassick G. Irving Iason Gabriel PILM 95 1,025 0 08 Dec 2021
Fast Model Editing at Scale E. Mitchell Charles Lin Antoine Bosselut Chelsea Finn Christopher D. Manning KELM 320 364 0 21 Oct 2021
An Empirical Survey of the Effectiveness of Debiasing Techniques for Pre-trained Language Models Nicholas Meade Elinor Poole-Dayan Siva Reddy 59 127 0 16 Oct 2021
Pre-trained Language Models in Biomedical Domain: A Systematic Survey Benyou Wang Qianqian Xie Jiahuan Pei Zhihong Chen Prayag Tiwari Zhao Li Jie Fu LM&MA AI4CE 76 168 0 11 Oct 2021
A survey on datasets for fairness-aware machine learning Tai Le Quy Arjun Roy Vasileios Iosifidis Wenbin Zhang Eirini Ntoutsi FaML 59 247 0 01 Oct 2021
Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution and Machine Translation Shahar Levy Koren Lazar Gabriel Stanovsky 60 69 0 08 Sep 2021
Sustainable Modular Debiasing of Language Models Anne Lauscher Tobias Lüken Goran Glavaš 100 121 0 08 Sep 2021
Finetuned Language Models Are Zero-Shot Learners Jason W. Wei Maarten Bosma Vincent Zhao Kelvin Guu Adams Wei Yu Brian Lester Nan Du Andrew M. Dai Quoc V. Le ALM UQCV 116 3,723 0 03 Sep 2021
Harms of Gender Exclusivity and Challenges in Non-Binary Representation in Language Technologies Sunipa Dev Masoud Monajatipoor Anaelia Ovalle Arjun Subramonian J. M. Phillips Kai-Wei Chang 102 170 0 27 Aug 2021
On Measures of Biases and Harms in NLP Sunipa Dev Emily Sheng Jieyu Zhao Aubrie Amstutz Jiao Sun ... M. Sanseverino Jiin Kim Akihiro Nishi Nanyun Peng Kai-Wei Chang 51 86 0 07 Aug 2021
Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents Chaojun Xiao Xueyu Hu Zhiyuan Liu Cunchao Tu Maosong Sun AILaw ELM 82 240 0 09 May 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 509 4,021 0 18 Apr 2021
First the worst: Finding better gender translations during beam search D. Saunders Rosie Sallis Bill Byrne 43 28 0 15 Apr 2021
Persistent Anti-Muslim Bias in Large Language Models Abubakar Abid Maheen Farooqi James Zou AILaw 97 549 0 14 Jan 2021
Social Chemistry 101: Learning to Reason about Social and Moral Norms Maxwell Forbes Jena D. Hwang Vered Shwartz Maarten Sap Yejin Choi 50 266 0 01 Nov 2020
Unmasking Contextual Stereotypes: Measuring and Mitigating BERT's Gender Bias Marion Bartl Malvina Nissim Albert Gatt 67 125 0 27 Oct 2020
Online Decision Trees with Fairness Wenbin Zhang Liang Zhao 26 16 0 15 Oct 2020
Measuring and Reducing Gendered Correlations in Pre-trained Models Kellie Webster Xuezhi Wang Ian Tenney Alex Beutel Emily Pitler Ellie Pavlick Jilin Chen Ed Chi Slav Petrov FaML 72 258 0 12 Oct 2020
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models Samuel Gehman Suchin Gururangan Maarten Sap Yejin Choi Noah A. Smith 133 1,191 0 24 Sep 2020
Predictive Biases in Natural Language Processing Models: A Conceptual Framework and Overview Deven Santosh Shah H. Andrew Schwartz Dirk Hovy AI4CE 96 259 0 09 Nov 2019
On Measuring and Mitigating Biased Inferences of Word Embeddings Sunipa Dev Tao Li J. M. Phillips Vivek Srikumar 74 172 0 25 Aug 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 518 24,351 0 26 Jul 2019