Mitigating Biases in Toxic Language Detection through Invariant
Rationalization

Mitigating Biases in Toxic Language Detection through Invariant Rationalization

14 June 2021

Yung-Sung Chuang

Papers citing "Mitigating Biases in Toxic Language Detection through Invariant Rationalization"

14 / 14 papers shown

Title
Challenges in Automated Debiasing for Toxic Language Detection Xuhui Zhou Maarten Sap Swabha Swayamdipta Noah A. Smith Yejin Choi 60 140 0 29 Jan 2021
Hate Speech Detection and Racial Bias Mitigation in Social Media based on BERT model Marzieh Mozafari R. Farahbakhsh Noel Crespi 53 220 0 14 Aug 2020
Demoting Racial Bias in Hate Speech Detection Mengzhou Xia Anjalie Field Yulia Tsvetkov 56 122 0 25 May 2020
Mind the Trade-off: Debiasing NLU Models without Degrading the In-distribution Performance Prasetya Ajie Utama N. Moosavi Iryna Gurevych OODD 114 127 0 01 May 2020
Invariant Rationalization Shiyu Chang Yang Zhang Mo Yu Tommi Jaakkola 230 206 0 22 Mar 2020
Adversarial Filters of Dataset Biases Ronan Le Bras Swabha Swayamdipta Chandra Bhagavatula Rowan Zellers Matthew E. Peters Ashish Sabharwal Yejin Choi 92 222 0 10 Feb 2020
Stereotypical Bias Removal for Hate Speech Detection Task using Knowledge-based Generalizations Pinkesh Badjatiya Manish Gupta Vasudeva Varma 67 105 0 15 Jan 2020
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases Christopher Clark Mark Yatskar Luke Zettlemoyer OOD 69 465 0 09 Sep 2019
Unlearn Dataset Bias in Natural Language Inference by Fitting the Residual He He Sheng Zha Haohan Wang 51 199 0 28 Aug 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 524 24,351 0 26 Jul 2019
Detecting Hate Speech and Offensive Language on Twitter using Machine Learning: An N-gram and TFIDF based Approach Aditya Gaydhani Vikrant Doma S. Kendre Laxmi Bhagwat 25 119 0 23 Sep 2018
Reducing Gender Bias in Abusive Language Detection Ji Ho Park Jamin Shin Pascale Fung FaML 51 339 0 22 Aug 2018
Automated Hate Speech Detection and the Problem of Offensive Language Thomas Davidson Dana Warmsley M. Macy Ingmar Weber 76 2,676 0 11 Mar 2017
Demographic Dialectal Variation in Social Media: A Case Study of African-American English Su Lin Blodgett Lisa Green Brendan O'Connor 86 354 0 31 Aug 2016