Measuring and Reducing Gendered Correlations in Pre-trained Models

12 October 2020

Papers citing "Measuring and Reducing Gendered Correlations in Pre-trained Models"

50 / 64 papers shown

Title
A Comprehensive Analysis of Large Language Model Outputs: Similarity, Diversity, and Bias Brandon Smith Mohamed Reda Bouadjenek Tahsin Alamgir Kheya Phillip Dawson S. Aryal ALM ELM 26 0 0 14 May 2025
Mitigating Group-Level Fairness Disparities in Federated Visual Language Models Chaomeng Chen Zitong Yu J. Dong Sen Su L. Shen Shutao Xia Xiaochun Cao FedML VLM 148 0 0 03 May 2025
Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models Kefan Song Jin Yao Runnan Jiang Rohan Chandra Shangtong Zhang ALM 46 0 0 10 Mar 2025
Gender Encoding Patterns in Pretrained Language Model Representations Mahdi Zakizadeh Mohammad Taher Pilehvar 48 0 0 09 Mar 2025
Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models Ruta Binkyte Ivaxi Sheth Zhijing Jin Mohammad Havaei Bernhard Schölkopf Mario Fritz 134 0 0 28 Feb 2025
Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs Angelina Wang Michelle Phan Daniel E. Ho Sanmi Koyejo 54 2 0 04 Feb 2025
Understanding and Mitigating Gender Bias in LLMs via Interpretable Neuron Editing Zeping Yu Sophia Ananiadou KELM 43 1 0 24 Jan 2025
ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning Wonduk Seo Zonghao Yuan Yi Bu VLM 50 1 0 02 Jan 2025
Smaller Large Language Models Can Do Moral Self-Correction Guangliang Liu Zhiyu Xue Rongrong Wang K. Johnson Kristen Marie Johnson LRM 32 0 0 30 Oct 2024
No Free Lunch: Retrieval-Augmented Generation Undermines Fairness in LLMs, Even for Vigilant Users Mengxuan Hu Hongyi Wu Zihan Guan Ronghang Zhu Dongliang Guo Daiqing Qi Sheng Li SILM 38 3 0 10 Oct 2024
Collapsed Language Models Promote Fairness Jingxuan Xu Wuyang Chen Linyi Li Yao Zhao Yunchao Wei 44 0 0 06 Oct 2024
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models Song Wang Peng Wang Tong Zhou Yushun Dong Zhen Tan Jundong Li CoGe 56 7 0 02 Jul 2024
Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness Guangliang Liu Milad Afshari Xitong Zhang Zhiyu Xue Avrajit Ghosh Bidhan Bashyal Rongrong Wang K. Johnson 27 0 0 06 Jun 2024
REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models Sana Ebrahimi N. Shahbazi Abolfazl Asudeh 37 1 0 17 Apr 2024
Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction Ziyang Xu Keqin Peng Liang Ding Dacheng Tao Xiliang Lu 34 10 0 15 Mar 2024
Measuring Bias in a Ranked List using Term-based Representations Amin Abolghasemi Leif Azzopardi Arian Askari Maarten de Rijke Suzan Verberne 42 6 0 09 Mar 2024
Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting Masahiro Kaneko Danushka Bollegala Naoaki Okazaki Timothy Baldwin LRM 37 27 0 28 Jan 2024
Thesis Distillation: Investigating The Impact of Bias in NLP Models on Hate Speech Detection Fatma Elsafoury 29 3 0 31 Aug 2023
A Survey on Fairness in Large Language Models Yingji Li Mengnan Du Rui Song Xin Wang Ying Wang ALM 52 59 0 20 Aug 2023
Gender-tuning: Empowering Fine-tuning for Debiasing Pre-trained Language Models Somayeh Ghanbarzadeh Yan-ping Huang Hamid Palangi R. C. Moreno Hamed Khanpour 34 12 0 20 Jul 2023
Prompt Tuning Pushes Farther, Contrastive Learning Pulls Closer: A Two-Stage Approach to Mitigate Social Biases Yingji Li Mengnan Du Xin Wang Ying Wang 53 26 0 04 Jul 2023
An Empirical Analysis of Parameter-Efficient Methods for Debiasing Pre-Trained Language Models Zhongbin Xie Thomas Lukasiewicz 26 12 0 06 Jun 2023
Uncovering and Quantifying Social Biases in Code Generation Yong Liu Xiaokang Chen Yan Gao Zhe Su Fengji Zhang Daoguang Zan Jian-Guang Lou Pin-Yu Chen Tsung-Yi Ho 36 19 0 24 May 2023
Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in Multilingual Machine Translation Minwoo Lee Hyukhun Koh Kang-il Lee Dongdong Zhang Minsu Kim Kyomin Jung 32 9 0 23 May 2023
Evaluation of Social Biases in Recent Large Pre-Trained Models Swapnil Sharma Nikita Anand V. KranthiKiranG. Alind Jain 26 0 0 13 Apr 2023
Logic Against Bias: Textual Entailment Mitigates Stereotypical Sentence Reasoning Hongyin Luo James R. Glass NAI 26 7 0 10 Mar 2023
In-Depth Look at Word Filling Societal Bias Measures Matúš Pikuliak Ivana Benová Viktor Bachratý 23 9 0 24 Feb 2023
Auditing large language models: a three-layered approach Jakob Mokander Jonas Schuett Hannah Rose Kirk Luciano Floridi AILaw MLAU 48 194 0 16 Feb 2023
Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous Pronouns Zhongbin Xie Vid Kocijan Thomas Lukasiewicz Oana-Maria Camburu 10 2 0 11 Feb 2023
Validating Large Language Models with ReLM Michael Kuchnik Virginia Smith George Amvrosiadis 32 27 0 21 Nov 2022
SocioProbe: What, When, and Where Language Models Learn about Sociodemographics Anne Lauscher Federico Bianchi Samuel R. Bowman Dirk Hovy 29 7 0 08 Nov 2022
Choose Your Lenses: Flaws in Gender Bias Evaluation Hadas Orgad Yonatan Belinkov 27 35 0 20 Oct 2022
BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation Tianxiang Sun Junliang He Xipeng Qiu Xuanjing Huang 24 44 0 14 Oct 2022
SODAPOP: Open-Ended Discovery of Social Biases in Social Commonsense Reasoning Models Haozhe An Zongxia Li Jieyu Zhao Rachel Rudinger 27 25 0 13 Oct 2022
CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation Tanay Dixit Bhargavi Paranjape Hannaneh Hajishirzi Luke Zettlemoyer SyDa 146 23 0 10 Oct 2022
Toxicity in Multilingual Machine Translation at Scale Marta R. Costa-jussá Eric Michael Smith C. Ropers Daniel Licht Jean Maillard Javier Ferrando Carlos Escolano 24 25 0 06 Oct 2022
Debiasing isn't enough! -- On the Effectiveness of Debiasing MLMs and their Social Biases in Downstream Tasks Masahiro Kaneko Danushka Bollegala Naoaki Okazaki 26 41 0 06 Oct 2022
Re-contextualizing Fairness in NLP: The Case of India Shaily Bhatt Sunipa Dev Partha P. Talukdar Shachi Dave Vinodkumar Prabhakaran 14 54 0 25 Sep 2022
Unit Testing for Concepts in Neural Networks Charles Lovering Ellie Pavlick 25 28 0 28 Jul 2022
Selection Bias Induced Spurious Correlations in Large Language Models Emily McMilin 35 7 0 18 Jul 2022
FairDistillation: Mitigating Stereotyping in Language Models Pieter Delobelle Bettina Berendt 20 8 0 10 Jul 2022
Counterfactually Measuring and Eliminating Social Bias in Vision-Language Pre-training Models Yi Zhang Junyan Wang Jitao Sang 22 27 0 03 Jul 2022
What Changed? Investigating Debiasing Methods using Causal Mediation Analysis Su-Ha Jeoung Jana Diesner CML 19 7 0 01 Jun 2022
Conditional Supervised Contrastive Learning for Fair Text Classification Jianfeng Chi Will Shand Yaodong Yu Kai-Wei Chang Han Zhao Yuan Tian FaML 46 14 0 23 May 2022
"I'm sorry to hear that": Finding New Biases in Language Models with a Holistic Descriptor Dataset Eric Michael Smith Melissa Hall Melanie Kambadur Eleonora Presani Adina Williams 79 129 0 18 May 2022
Fair and Argumentative Language Modeling for Computational Argumentation Carolin Holtermann Anne Lauscher Simone Paolo Ponzetto 16 21 0 08 Apr 2022
Challenges and Strategies in Cross-Cultural NLP Daniel Hershcovich Stella Frank Heather Lent Miryam de Lhoneux Mostafa Abdou ... Ruixiang Cui Constanza Fierro Katerina Margatina Phillip Rust Anders Søgaard 43 163 0 18 Mar 2022
Speciesist Language and Nonhuman Animal Bias in English Masked Language Models Masashi Takeshita Rafal Rzepka K. Araki 26 6 0 10 Mar 2022
Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in Pretrained Language Models Pieter Delobelle E. Tokpo T. Calders Bettina Berendt 19 25 0 14 Dec 2021
SynthBio: A Case Study in Human-AI Collaborative Curation of Text Datasets Ann Yuan Daphne Ippolito Vitaly Nikolaev Chris Callison-Burch Andy Coenen Sebastian Gehrmann SyDa 112 20 0 11 Nov 2021