Mitigating Gender Bias in Distilled Language Models via Counterfactual Role Reversal

23 March 2022

Papers citing "Mitigating Gender Bias in Distilled Language Models via Counterfactual Role Reversal"

34 / 34 papers shown

Title
A Multi-LLM Debiasing Framework Deonna M. Owens Ryan A. Rossi Sungchul Kim Tong Yu Franck Dernoncourt Xiang Chen Ruiyi Zhang Jiuxiang Gu Hanieh Deilamsalehy Nedim Lipka 36 3 0 20 Sep 2024
Challenging Fairness: A Comprehensive Exploration of Bias in LLM-Based Recommendations Shahnewaz Karim Sakib Anindya Bijoy Das 31 0 0 17 Sep 2024
Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias Jayanta Sadhu Maneesha Rani Saha Rifat Shahriyar 43 3 0 03 Jul 2024
CAVE: Controllable Authorship Verification Explanations Sahana Ramnath Kartik Pandey Elizabeth Boschee Xiang Ren 61 1 0 24 Jun 2024
Investigating Annotator Bias in Large Language Models for Hate Speech Detection Amit Das Zheng Zhang Fatemeh Jamshidi Vinija Jain Aman Chadha Nilanjana Raychawdhary Mary J. Sandage Lauramarie Pope Gerry V. Dozier Cheryl Seals 34 2 0 17 Jun 2024
Deconstructing The Ethics of Large Language Models from Long-standing Issues to New-emerging Dilemmas Chengyuan Deng Yiqun Duan Xin Jin Heng Chang Yijun Tian ... Kuofeng Gao Sihong He Jun Zhuang Lu Cheng Haohan Wang AILaw 43 16 0 08 Jun 2024
Expert-Guided Extinction of Toxic Tokens for Debiased Generation Xueyao Sun Kaize Shi Haoran Tang Guandong Xu Qing Li MU 43 1 0 29 May 2024
Navigating LLM Ethics: Advancements, Challenges, and Future Directions Junfeng Jiao S. Afroogh Yiming Xu Connor Phillips AILaw 65 19 0 14 May 2024
Gender Bias in Large Language Models across Multiple Languages Jinman Zhao Yitian Ding Chen Jia Yining Wang Zifan Qian 24 25 0 01 Mar 2024
Enhancing In-context Learning via Linear Probe Calibration Momin Abbas Yi Zhou Parikshit Ram Nathalie Baracaldo Horst Samulowitz Theodoros Salonidis Tianyi Chen 76 9 0 22 Jan 2024
Developing Linguistic Patterns to Mitigate Inherent Human Bias in Offensive Language Detection Toygar Tanyel Besher Alkurdi S. Ayvaz 13 0 0 04 Dec 2023
Tackling Bias in Pre-trained Language Models: Current Trends and Under-represented Societies Vithya Yogarajan Gillian Dobbie Te Taka Keegan R. Neuwirth ALM 43 11 0 03 Dec 2023
Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications Fengqing Jiang Zhangchen Xu Luyao Niu Wei Ping Jinyuan Jia Bo Li Radha Poovendran AAML 21 19 0 07 Nov 2023
"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters Yixin Wan George Pu Jiao Sun Aparna Garimella Kai-Wei Chang Nanyun Peng 34 160 0 13 Oct 2023
Survey of Social Bias in Vision-Language Models Nayeon Lee Yejin Bang Holy Lovenia Samuel Cahyawijaya Wenliang Dai Pascale Fung VLM 47 16 0 24 Sep 2023
Bias and Fairness in Large Language Models: A Survey Isabel O. Gallegos Ryan A. Rossi Joe Barrow Md Mehrab Tanjim Sungchul Kim Franck Dernoncourt Tong Yu Ruiyi Zhang Nesreen Ahmed AILaw 26 490 0 02 Sep 2023
A Survey on Fairness in Large Language Models Yingji Li Mengnan Du Rui Song Xin Wang Ying Wang ALM 52 59 0 20 Aug 2023
Unveiling Gender Bias in Terms of Profession Across LLMs: Analyzing and Addressing Sociological Implications Vishesh Thakur 27 26 0 18 Jul 2023
Mitigating Bias in Conversations: A Hate Speech Classifier and Debiaser with Prompts Shaina Raza Chen Ding D. Pandya FaML 18 2 0 14 Jul 2023
Queer People are People First: Deconstructing Sexual Identity Stereotypes in Large Language Models Harnoor Dhingra Preetiha Jayashanker Sayali S. Moghe Emma Strubell 25 13 0 30 Jun 2023
TrustGPT: A Benchmark for Trustworthy and Responsible Large Language Models Yue Huang Qihui Zhang Philip S. Y Lichao Sun 18 46 0 20 Jun 2023
Sociodemographic Bias in Language Models: A Survey and Forward Path Vipul Gupta Pranav Narayanan Venkit Shomir Wilson R. Passonneau 42 20 0 13 Jun 2023
Controlling Learned Effects to Reduce Spurious Correlations in Text Classifiers Parikshit Bansal Amit Sharma CML 26 5 0 26 May 2023
$k$ NN Prompting: Beyond-Context Learning with Calibration-Free Nearest Neighbor Inference Benfeng Xu Quan Wang Zhendong Mao Yajuan Lyu Qiaoqiao She Yongdong Zhang 104 52 0 24 Mar 2023
Toward Fairness in Text Generation via Mutual Information Minimization based on Importance Sampling Rui Wang Pengyu Cheng Ricardo Henao 14 8 0 25 Feb 2023
Ensemble Transfer Learning for Multilingual Coreference Resolution T. Lai Heng Ji 18 1 0 22 Jan 2023
Harnessing Knowledge and Reasoning for Human-Like Natural Language Generation: A Brief Review Jiangjie Chen Yanghua Xiao 44 4 0 07 Dec 2022
Debiasing Methods for Fairer Neural Models in Vision and Language Research: A Survey Otávio Parraga Martin D. Móre C. M. Oliveira Nathan Gavenski L. S. Kupssinskü Adilson Medronha L. V. Moura Gabriel S. Simões Rodrigo C. Barros 42 11 0 10 Nov 2022
Bridging Fairness and Environmental Sustainability in Natural Language Processing Marius Hessenthaler Emma Strubell Dirk Hovy Anne Lauscher 24 8 0 08 Nov 2022
On Learning Fairness and Accuracy on Multiple Subgroups Changjian Shui Gezheng Xu Qi Chen Jiaqi Li Charles Ling Tal Arbel Boyu Wang Christian Gagné 46 37 0 19 Oct 2022
From Mimicking to Integrating: Knowledge Integration for Pre-Trained Language Models Lei Li Yankai Lin Xuancheng Ren Guangxiang Zhao Peng Li Jie Zhou Xu Sun VLM 16 1 0 11 Oct 2022
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model Saleh Soltan Shankar Ananthakrishnan Jack G. M. FitzGerald Rahul Gupta Wael Hamza ... Mukund Sridhar Fabian Triefenbach Apurv Verma Gokhan Tur Premkumar Natarajan 54 82 0 02 Aug 2022
Fast Posterior Estimation of Cardiac Electrophysiological Model Parameters via Bayesian Active Learning Md Shakil Zaman Jwala Dhamala Pradeep Bajracharya J. Sapp B. Horácek Katherine C. Wu Natalia A. Trayanova Linwei Wang 34 10 0 13 Oct 2021
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 223 616 0 03 Sep 2019