Lipstick on a Pig: Debiasing Methods Cover up Systematic Gender Biases in Word Embeddings But do not Remove Them

9 March 2019

Papers citing "Lipstick on a Pig: Debiasing Methods Cover up Systematic Gender Biases in Word Embeddings But do not Remove Them"

50 / 307 papers shown

Title
Bias Analysis and Mitigation through Protected Attribute Detection and Regard Classification Takuma Udagawa Yang Zhao H. Kanayama Bishwaranjan Bhattacharjee 33 0 0 19 Apr 2025
GraphSeg: Segmented 3D Representations via Graph Edge Addition and Contraction Haozhan Tang Tianyi Zhang Oliver Kroemer Matthew Johnson-Roberson Weiming Zhi 3DPC 59 0 0 04 Apr 2025
LLM Social Simulations Are a Promising Research Method Jacy Reese Anthis Ryan Liu Sean M. Richardson Austin C. Kozlowski Bernard Koch James A. Evans Erik Brynjolfsson Michael S. Bernstein ALM 56 5 0 03 Apr 2025
Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing Vishnu Asutosh Dasu Md. Rafi Ur Rashid Vipul Gupta Saeid Tizpaz-Niari Gang Tan AAML 54 0 0 20 Mar 2025
Enforcing Consistency and Fairness in Multi-level Hierarchical Classification with a Mask-based Output Layer Shijing Chen Shoaib Jameel Mohamed Reda Bouadjenek Feilong Tang Usman Naseem Basem Suleiman Hakim Hacid Flora D. Salim Imran Razzak 41 0 0 19 Mar 2025
On the Mutual Influence of Gender and Occupation in LLM Representations Haozhe An Connor Baumler Abhilasha Sancheti Rachel Rudinger AI4CE 55 1 0 09 Mar 2025
Gender Encoding Patterns in Pretrained Language Model Representations Mahdi Zakizadeh Mohammad Taher Pilehvar 48 0 0 09 Mar 2025
SAKE: Steering Activations for Knowledge Editing Marco Scialanga Thibault Laugel Vincent Grari Marcin Detyniecki KELM LLMSV 80 1 0 03 Mar 2025
What do Large Language Models Say About Animals? Investigating Risks of Animal Harm in Generated Text Arturs Kanepajs Aditi Basu Sankalpa Ghose Constance Li Akshat Mehta Ronak Mehta Samuel David Tucker-Davis Eric Zhou Bob Fischer ALM ELM 45 0 0 03 Mar 2025
The Call for Socially Aware Language Technologies Diyi Yang Dirk Hovy David Jurgens Barbara Plank VLM 61 11 0 24 Feb 2025
Fine-Tuned LLMs are "Time Capsules" for Tracking Societal Bias Through Books Sangmitra Madhusudan Robert D Morabito Skye Reid Nikta Gohari Sadr Ali Emami 61 0 0 07 Feb 2025
Beyond Benchmarks: On The False Promise of AI Regulation Gabriel Stanovsky Renana Keydar Gadi Perl Eliya Habba 41 1 0 28 Jan 2025
Bias Vector: Mitigating Biases in Language Models with Task Arithmetic Approach Daiki Shirafuji Makoto Takenaka Shinya Taguchi LLMAG 74 0 0 16 Dec 2024
How far can bias go? -- Tracing bias from pretraining data to alignment Marion Thaler Abdullatif Köksal Alina Leidinger Anna Korhonen Hinrich Schutze 74 0 0 28 Nov 2024
Mitigating Gender Bias in Contextual Word Embeddings Navya Yarrabelly Vinay Damodaran Feng-Guang Su 74 0 0 18 Nov 2024
Local Contrastive Editing of Gender Stereotypes Marlene Lutz Rochelle Choenni M. Strohmaier Anne Lauscher 34 1 0 23 Oct 2024
Ethics Whitepaper: Whitepaper on Ethical Research into Large Language Models Eddie L. Ungless Nikolas Vitsakis Zeerak Talat James Garforth Bjorn Ross Arno Onken Atoosa Kasirzadeh Alexandra Birch 33 1 0 17 Oct 2024
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors Georgios Chochlakis Alexandros Potamianos Kristina Lerman Shrikanth Narayanan 34 0 0 17 Oct 2024
On Debiasing Text Embeddings Through Context Injection Thomas Uriot 37 0 0 14 Oct 2024
Stereotype or Personalization? User Identity Biases Chatbot Recommendations Anjali Kantharuban Jeremiah Milbauer Emma Strubell Graham Neubig 34 11 0 08 Oct 2024
Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions Angana Borah Rada Mihalcea 42 9 0 03 Oct 2024
An Adversarial Perspective on Machine Unlearning for AI Safety Jakub Łucki Boyi Wei Yangsibo Huang Peter Henderson F. Tramèr Javier Rando MU AAML 77 32 0 26 Sep 2024
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions Robert D Morabito Sangmitra Madhusudan Tyler McDonald Ali Emami 31 0 0 20 Sep 2024
Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models Hila Gonen Terra Blevins Alisa Liu Luke Zettlemoyer Noah A. Smith 31 5 0 12 Aug 2024
The BIAS Detection Framework: Bias Detection in Word Embeddings and Language Models for European Languages A. Puttick Leander Rankwiler Catherine Ikae Mascha Kurpicz-Briki 18 2 0 26 Jul 2024
NLPGuard: A Framework for Mitigating the Use of Protected Attributes by NLP Classifiers Salvatore Greco Ke Zhou L. Capra Tania Cerquitelli Daniele Quercia 36 2 0 01 Jul 2024
Rethinking harmless refusals when fine-tuning foundation models Florin Pop Judd Rosenblatt Diogo Schwerz de Lucena Michael Vaiana 18 0 0 27 Jun 2024
Leveraging Large Language Models to Measure Gender Bias in Gendered Languages Erik Derner Sara Sansalvador de la Fuente Yoan Gutiérrez Paloma Moreda Nuria Oliver 32 1 0 19 Jun 2024
Vernacular? I Barely Know Her: Challenges with Style Control and Stereotyping Ankit Aich Tingting Liu Salvatore Giorgi Kelsey Isman Lyle Ungar Brenda L. Curtis 51 2 0 18 Jun 2024
Bias in Text Embedding Models Vasyl Rakivnenko Nestor Maslej Jessica Cervi Volodymyr Zhukov 31 0 0 17 Jun 2024
Who's asking? User personas and the mechanics of latent misalignment Asma Ghandeharioun Ann Yuan Marius Guerard Emily Reif Michael A. Lepori Lucas Dixon LLMSV 44 7 0 17 Jun 2024
Extrinsic Evaluation of Cultural Competence in Large Language Models Shaily Bhatt Fernando Diaz ELM EGVM 47 4 0 17 Jun 2024
Evaluation of Large Language Models: STEM education and Gender Stereotypes Smilla Due Sneha Das Marianne Andersen Berta Plandolit López Sniff Andersen Nexø Line Clemmensen 39 1 0 14 Jun 2024
Optimal synthesis embeddings Roberto Santana M. R. Sicre 24 0 0 10 Jun 2024
The Life Cycle of Large Language Models: A Review of Biases in Education Jinsook Lee Yann Hicke Renzhe Yu Christopher A. Brooks René F. Kizilcec AI4Ed 42 1 0 03 Jun 2024
Applying Intrinsic Debiasing on Downstream Tasks: Challenges and Considerations for Machine Translation Bar Iluz Yanai Elazar Asaf Yehudai Gabriel Stanovsky 41 1 0 02 Jun 2024
The Impossibility of Fair LLMs Jacy Reese Anthis Kristian Lum Michael Ekstrand Avi Feller Alexander D’Amour Chenhao Tan FaML 45 11 0 28 May 2024
Sparse maximal update parameterization: A holistic approach to sparse training dynamics Nolan Dey Shane Bergsma Joel Hestness 38 5 0 24 May 2024
Sociotechnical Implications of Generative Artificial Intelligence for Information Access Bhaskar Mitra Henriette Cramer Olya Gurevich 50 2 0 19 May 2024
A Comprehensive Analysis of Static Word Embeddings for Turkish Karahan Sarıtaş Cahid Arda Öz Tunga Güngör 23 3 0 13 May 2024
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes Damin Zhang Yi Zhang Geetanjali Bihani Julia Taylor Rayz 53 2 0 06 May 2024
Fair Risk Control: A Generalized Framework for Calibrating Multi-group Fairness Risks Lujing Zhang Aaron Roth Linjun Zhang FaML 27 6 0 03 May 2024
Data Bias According to Bipol: Men are Naturally Right and It is the Role of Women to Follow Their Lead Irene Pagliai G. V. Boven Tosin P. Adewumi Lama Alkhaled Namrata Gurung Isabella Sodergren Elisa Barney 39 1 0 07 Apr 2024
Robust Pronoun Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased? Vagrant Gautam Eileen Bingert D. Zhu Anne Lauscher Dietrich Klakow 45 8 0 04 Apr 2024
Debiasing Sentence Embedders through Contrastive Word Pairs Philip Kenneweg Sarah Schröder Alexander Schulz Barbara Hammer 41 0 0 27 Mar 2024
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition Georgios Chochlakis Alexandros Potamianos Kristina Lerman Shrikanth Narayanan 40 5 0 25 Mar 2024
Investigating grammatical abstraction in language models using few-shot learning of novel noun gender Priyanka Sukumaran Conor Houghton N. Kazanina 46 0 0 15 Mar 2024
Applied Causal Inference Powered by ML and AI Victor Chernozhukov Christian Hansen Nathan Kallus Martin Spindler Vasilis Syrgkanis CML 36 29 0 04 Mar 2024
FAC $^2$ E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition Xiaoqiang Wang Bang Liu Lingfei Wu 35 0 0 29 Feb 2024
On the Challenges and Opportunities in Generative AI Laura Manduchi Kushagra Pandey Robert Bamler Ryan Cotterell Sina Daubener ... F. Wenzel Frank Wood Stephan Mandt Vincent Fortuin Vincent Fortuin 56 17 0 28 Feb 2024