Detecting Unintended Social Bias in Toxic Language Datasets

21 October 2022

Papers citing "Detecting Unintended Social Bias in Toxic Language Datasets"

8 / 8 papers shown

Title
Investigating the Capabilities and Limitations of Machine Learning for Identifying Bias in English Language Data with Information and Heritage Professionals Lucy Havens Benjamin Bach Melissa Mhairi Terras Beatrice Alex 49 0 0 01 Apr 2025
Large Language Model Bias Mitigation from the Perspective of Knowledge Editing Ruizhe Chen Yichen Li Zikai Xiao Zuo-Qiang Liu KELM 40 13 0 15 May 2024
NLP Systems That Can't Tell Use from Mention Censor Counterspeech, but Teaching the Distinction Helps Kristina Gligorić Myra Cheng Lucia Zheng Esin Durmus Dan Jurafsky 45 9 0 02 Apr 2024
IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context Nihar Ranjan Sahoo Pranamya Prashant Kulkarni Narjis Asad Arif Ahmad Tanu Goyal Aparna Garimella Pushpak Bhattacharyya 36 9 0 29 Mar 2024
GRASP: A Disagreement Analysis Framework to Assess Group Associations in Perspectives Vinodkumar Prabhakaran Christopher Homan Lora Aroyo Aida Mostafazadeh Davani Alicia Parrish Alex S. Taylor Mark Díaz Ding Wang Greg Serapio-García 39 9 0 09 Nov 2023
DICES Dataset: Diversity in Conversational AI Evaluation for Safety Lora Aroyo Alex S. Taylor Mark Díaz Christopher Homan Alicia Parrish Greg Serapio-García Vinodkumar Prabhakaran Ding Wang 32 33 0 20 Jun 2023
Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality Jialing Yuan Ye Yu Gaurav Mittal Matthew Hall Sandra Sajeev Mei Chen 19 9 0 17 May 2023
Toxicity in Multilingual Machine Translation at Scale Marta R. Costa-jussá Eric Michael Smith C. Ropers Daniel Licht Jean Maillard Javier Ferrando Carlos Escolano 30 25 0 06 Oct 2022