Intrinsic Bias Metrics Do Not Correlate with Application Bias

31 December 2020

Seraphina Goldfarb-Tarrant

Rebecca Marchant

Ricardo Muñoz Sánchez

Mugdha Pandya

Adam Lopez

ArXiv PDF HTML

Papers citing "Intrinsic Bias Metrics Do Not Correlate with Application Bias"

49 / 49 papers shown

Title
Developing A Framework to Support Human Evaluation of Bias in Generated Free Response Text Jennifer Healey Laurie Byrum Md Nadeem Akhtar Surabhi Bhargava Moumita Sinha 34 0 0 05 May 2025
Toward an Evaluation Science for Generative AI Systems Laura Weidinger Deb Raji Hanna M. Wallach Margaret Mitchell Angelina Wang Olawale Salaudeen Rishi Bommasani Sayash Kapoor Deep Ganguli Sanmi Koyejo EGVM ELM 67 4 0 07 Mar 2025
Linear Representations of Political Perspective Emerge in Large Language Models Junsol Kim James Evans Aaron Schein 77 2 0 03 Mar 2025
Who Does the Giant Number Pile Like Best: Analyzing Fairness in Hiring Contexts Preethi Seshadri Seraphina Goldfarb-Tarrant 40 1 0 08 Jan 2025
Analyzing Correlations Between Intrinsic and Extrinsic Bias Metrics of Static Word Embeddings With Their Measuring Biases Aligned Taisei Katô Yusuke Miyao 19 0 0 14 Sep 2024
Extrinsic Evaluation of Cultural Competence in Large Language Models Shaily Bhatt Fernando Diaz ELM EGVM 47 4 0 17 Jun 2024
Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness Guangliang Liu Milad Afshari Xitong Zhang Zhiyu Xue Avrajit Ghosh Bidhan Bashyal Rongrong Wang K. Johnson 32 0 0 06 Jun 2024
Angry Men, Sad Women: Large Language Models Reflect Gendered Stereotypes in Emotion Attribution Flor Miriam Plaza del Arco Amanda Cercas Curry Alba Curry Gavin Abercrombie Dirk Hovy 37 24 0 05 Mar 2024
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation Kristian Lum Jacy Reese Anthis Chirag Nagpal Alex DÁmour Alexander D’Amour 31 14 0 20 Feb 2024
Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting Masahiro Kaneko Danushka Bollegala Naoaki Okazaki Timothy Baldwin LRM 37 27 0 28 Jan 2024
Evaluating Bias and Fairness in Gender-Neutral Pretrained Vision-and-Language Models Laura Cabello Emanuele Bugliarello Stephanie Brandl Desmond Elliott 23 7 0 26 Oct 2023
Thesis Distillation: Investigating The Impact of Bias in NLP Models on Hate Speech Detection Fatma Elsafoury 29 3 0 31 Aug 2023
A Survey on Fairness in Large Language Models Yingji Li Mengnan Du Rui Song Xin Wang Ying Wang ALM 52 60 0 20 Aug 2023
Having Beer after Prayer? Measuring Cultural Bias in Large Language Models Tarek Naous Michael Joseph Ryan Alan Ritter Wei-ping Xu 37 86 0 23 May 2023
This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language Models Seraphina Goldfarb-Tarrant Eddie L. Ungless Esma Balkir Su Lin Blodgett 43 9 0 22 May 2023
Cross-lingual Transfer Can Worsen Bias in Sentiment Analysis Seraphina Goldfarb-Tarrant Bjorn Ross Adam Lopez 39 7 0 22 May 2023
Bias Beyond English: Counterfactual Tests for Bias in Sentiment Analysis in Four Languages Seraphina Goldfarb-Tarrant Adam Lopez Roi Blanco Diego Marcheggiani 34 13 0 19 May 2023
PaLM 2 Technical Report Rohan Anil Andrew M. Dai Orhan Firat Melvin Johnson Dmitry Lepikhin ... Ce Zheng Wei Zhou Denny Zhou Slav Petrov Yonghui Wu ReLM LRM 128 1,152 0 17 May 2023
On the Origins of Bias in NLP through the Lens of the Jim Code Fatma Elsafoury Gavin Abercrombie 47 4 0 16 May 2023
ACROCPoLis: A Descriptive Framework for Making Sense of Fairness Andrea Aler Tubella Dimitri Coelho Mollo Adam Dahlgren Lindstrom Hannah Devinney Virginia Dignum ... Anna Jonsson T. Kampik Tom Lenaerts Julian Alfredo Mendez J. Nieves 34 8 0 19 Apr 2023
Overwriting Pretrained Bias with Finetuning Data Angelina Wang Olga Russakovsky 26 29 0 10 Mar 2023
In-Depth Look at Word Filling Societal Bias Measures Matúš Pikuliak Ivana Benová Viktor Bachratý 29 9 0 24 Feb 2023
A Comprehensive Study of Gender Bias in Chemical Named Entity Recognition Models Xingmeng Zhao A. Niazi Anthony Rios 31 2 0 24 Dec 2022
Trustworthy Social Bias Measurement Rishi Bommasani Percy Liang 32 10 0 20 Dec 2022
Choose Your Lenses: Flaws in Gender Bias Evaluation Hadas Orgad Yonatan Belinkov 27 35 0 20 Oct 2022
The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks Nikil Selvam Sunipa Dev Daniel Khashabi Tushar Khot Kai-Wei Chang ALM 24 25 0 18 Oct 2022
Log-linear Guardedness and its Implications Shauli Ravfogel Yoav Goldberg Ryan Cotterell 28 2 0 18 Oct 2022
The Lifecycle of "Facts": A Survey of Social Bias in Knowledge Graphs Angelie Kraft Ricardo Usbeck KELM 32 9 0 07 Oct 2022
Debiasing isn't enough! -- On the Effectiveness of Debiasing MLMs and their Social Biases in Downstream Tasks Masahiro Kaneko Danushka Bollegala Naoaki Okazaki 28 41 0 06 Oct 2022
Debiasing Word Embeddings with Nonlinear Geometry Lu Cheng Nayoung Kim Huan Liu 24 5 0 29 Aug 2022
The Birth of Bias: A case study on the evolution of gender bias in an English language model Oskar van der Wal Jaap Jumelet K. Schulz Willem H. Zuidema 32 16 0 21 Jul 2022
Characteristics of Harmful Text: Towards Rigorous Benchmarking of Language Models Maribeth Rauh John F. J. Mellor J. Uesato Po-Sen Huang Johannes Welbl ... Amelia Glaese G. Irving Iason Gabriel William S. Isaac Lisa Anne Hendricks 33 49 0 16 Jun 2022
Challenges in Applying Explainability Methods to Improve the Fairness of NLP Models Esma Balkir S. Kiritchenko I. Nejadgholi Kathleen C. Fraser 21 36 0 08 Jun 2022
"I'm sorry to hear that": Finding New Biases in Language Models with a Holistic Descriptor Dataset Eric Michael Smith Melissa Hall Melanie Kambadur Eleonora Presani Adina Williams 79 130 0 18 May 2022
How Gender Debiasing Affects Internal Model Representations, and Why It Matters Hadas Orgad Seraphina Goldfarb-Tarrant Yonatan Belinkov 26 18 0 14 Apr 2022
Probing Pre-Trained Language Models for Cross-Cultural Differences in Values Arnav Arora Lucie-Aimée Kaffee Isabelle Augenstein VLM 43 124 0 25 Mar 2022
Mitigating Gender Bias in Distilled Language Models via Counterfactual Role Reversal Umang Gupta Jwala Dhamala Varun Kumar Apurv Verma Yada Pruksachatkun Satyapriya Krishna Rahul Gupta Kai-Wei Chang Greg Ver Steeg Aram Galstyan 21 49 0 23 Mar 2022
Speciesist Language and Nonhuman Animal Bias in English Masked Language Models Masashi Takeshita Rafal Rzepka K. Araki 31 6 0 10 Mar 2022
Linear Adversarial Concept Erasure Shauli Ravfogel Michael Twiton Yoav Goldberg Ryan Cotterell KELM 84 57 0 28 Jan 2022
Regional Negative Bias in Word Embeddings Predicts Racial Animus--but only via Name Frequency Austin Van Loon Salvatore Giorgi Robb Willer J. Eichstaedt 42 10 0 20 Jan 2022
Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in Pretrained Language Models Pieter Delobelle E. Tokpo T. Calders Bettina Berendt 19 24 0 14 Dec 2021
Assessing the Reliability of Word Embedding Gender Bias Measures Yupei Du Qixiang Fang D. Nguyen 46 21 0 10 Sep 2021
Causal Inference in Natural Language Processing: Estimation, Prediction, Interpretation and Beyond Amir Feder Katherine A. Keith Emaad A. Manzoor Reid Pryzant Dhanya Sridhar ... Roi Reichart Margaret E. Roberts Brandon M Stewart Victor Veitch Diyi Yang CML 41 234 0 02 Sep 2021
On Measures of Biases and Harms in NLP Sunipa Dev Emily Sheng Jieyu Zhao Aubrie Amstutz Jiao Sun ... M. Sanseverino Jiin Kim Akihiro Nishi Nanyun Peng Kai-Wei Chang 31 80 0 07 Aug 2021
Quantifying Social Biases in NLP: A Generalization and Empirical Comparison of Extrinsic Fairness Metrics Paula Czarnowska Yogarshi Vyas Kashif Shah 21 104 0 28 Jun 2021
Alexa, Google, Siri: What are Your Pronouns? Gender and Anthropomorphism in the Design and Perception of Conversational Assistants Gavin Abercrombie Amanda Cercas Curry Mugdha Pandya Verena Rieser 36 53 0 04 Jun 2021
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 223 620 0 03 Sep 2019
Convolutional Neural Networks for Sentence Classification Yoon Kim AILaw VLM 282 13,373 0 25 Aug 2014
Efficient Estimation of Word Representations in Vector Space Tomáš Mikolov Kai Chen G. Corrado J. Dean 3DV 305 31,280 0 16 Jan 2013