Demoting Racial Bias in Hate Speech Detection

25 May 2020

Papers citing "Demoting Racial Bias in Hate Speech Detection"

25 / 25 papers shown

Title
Personalisation or Prejudice? Addressing Geographic Bias in Hate Speech Detection using Debias Tuning in Large Language Models Paloma Piot Patricia Martín-Rodilla Javier Parapar 50 0 0 04 May 2025
Beyond Detection: Unveiling Fairness Vulnerabilities in Abusive Language Models Yueqing Liang Lu Cheng Ali Payani Kai Shu 28 3 0 15 Nov 2023
Manifestations of Xenophobia in AI Systems Nenad Tomašev J. L. Maynard Iason Gabriel 24 9 0 15 Dec 2022
Harnessing Knowledge and Reasoning for Human-Like Natural Language Generation: A Brief Review Jiangjie Chen Yanghua Xiao 49 4 0 07 Dec 2022
Human-Machine Collaboration Approaches to Build a Dialogue Dataset for Hate Speech Countering Helena Bonaldi Sara Dellantonio Serra Sinem Tekiroğlu Marco Guerini 29 42 0 07 Nov 2022
Detecting Unintended Social Bias in Toxic Language Datasets Nihar Ranjan Sahoo Himanshu Gupta P. Bhattacharyya 21 18 0 21 Oct 2022
Controlling Bias Exposure for Fair Interpretable Predictions Zexue He Yu-Xiang Wang Julian McAuley Bodhisattwa Prasad Majumder 27 19 0 14 Oct 2022
Detecting Harmful Online Conversational Content towards LGBTQIA+ Individuals Jamell Dacon Harry Shomer Shaylynn Crum-Dacon Jiliang Tang 27 8 0 15 Jun 2022
Toward Understanding Bias Correlations for Mitigation in NLP Lu Cheng Suyu Ge Huan Liu 39 8 0 24 May 2022
Analyzing Hate Speech Data along Racial, Gender and Intersectional Axes Antonis Maronikolakis Philip Baader Hinrich Schütze 28 9 0 13 May 2022
Using Pre-Trained Language Models for Producing Counter Narratives Against Hate Speech: a Comparative Study Serra Sinem Tekiroğlu Helena Bonaldi Margherita Fanton Marco Guerini 24 43 0 04 Apr 2022
Automated Identification of Toxic Code Reviews Using ToxiCR Jaydeb Sarker Asif Kamal Turzo Mingyou Dong Amiangshu Bosu 27 31 0 26 Feb 2022
Handling Bias in Toxic Speech Detection: A Survey Tanmay Garg Sarah Masud Tharun Suresh Tanmoy Chakraborty 17 91 0 26 Jan 2022
Adversarial Attacks and Defenses for Social Network Text Processing Applications: Techniques, Challenges and Future Research Directions I. Alsmadi Kashif Ahmad Mahmoud Nazzal Firoj Alam Ala I. Al-Fuqaha Abdallah Khreishah A. Algosaibi AAML 37 16 0 26 Oct 2021
Mitigating Racial Biases in Toxic Language Detection with an Equity-Based Ensemble Framework Matan Halevy Camille Harris A. Bruckman Diyi Yang A. Howard 42 35 0 27 Sep 2021
Latent Hatred: A Benchmark for Understanding Implicit Hate Speech Mai Elsherief Caleb Ziems D. Muchlinski Vaishnavi Anupindi Jordyn Seybolt M. D. Choudhury Diyi Yang 106 239 0 11 Sep 2021
Investigating Bias In Automatic Toxic Comment Detection: An Empirical Study Ayush Kumar Pratik Kumar 30 0 0 14 Aug 2021
On Measures of Biases and Harms in NLP Sunipa Dev Emily Sheng Jieyu Zhao Aubrie Amstutz Jiao Sun ... M. Sanseverino Jiin Kim Akihiro Nishi Nanyun Peng Kai-Wei Chang 31 80 0 07 Aug 2021
Anticipating Safety Issues in E2E Conversational AI: Framework and Tooling Emily Dinan Gavin Abercrombie A. S. Bergman Shannon L. Spruit Dirk Hovy Y-Lan Boureau Verena Rieser 43 105 0 07 Jul 2021
A Survey of Race, Racism, and Anti-Racism in NLP Anjalie Field Su Lin Blodgett Zeerak Talat Yulia Tsvetkov 42 122 0 21 Jun 2021
An Information-theoretic Approach to Distribution Shifts Marco Federici Ryota Tomioka Patrick Forré OOD 44 17 0 07 Jun 2021
ToxCCIn: Toxic Content Classification with Interpretability Tong Xiang Sean MacAvaney Eugene Yang Nazli Goharian 77 15 0 01 Mar 2021
Towards generalisable hate speech detection: a review on obstacles and solutions Wenjie Yin A. Zubiaga 117 164 0 17 Feb 2021
On Transferability of Bias Mitigation Effects in Language Model Fine-Tuning Xisen Jin Francesco Barbieri Brendan Kennedy Aida Mostafazadeh Davani Leonardo Neves Xiang Ren 35 5 0 24 Oct 2020
Empirical Analysis of Multi-Task Learning for Reducing Model Bias in Toxic Comment Detection Ameya Vaidya Feng Mai Yue Ning 115 21 0 21 Sep 2019