Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection

15 November 2021

Maarten Sap

Swabha Swayamdipta

Laura Vianna

Xuhui Zhou

Yejin Choi

Noah A. Smith

ArXiv PDF HTML

Papers citing "Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection"

50 / 165 papers shown

Title
NLPositionality: Characterizing Design Biases of Datasets and Models Sebastin Santy Jenny T Liang Ronan Le Bras Katharina Reinecke Maarten Sap 30 77 0 02 Jun 2023
An Invariant Learning Characterization of Controlled Text Generation Carolina Zheng Claudia Shi Keyon Vafa Amir Feder David M. Blei OOD 35 8 0 31 May 2023
Designing Closed-Loop Models for Task Allocation Vijay Keswani L. E. Celis K. Kenthapadi Matthew Lease 16 0 0 31 May 2023
Controlling Learned Effects to Reduce Spurious Correlations in Text Classifiers Parikshit Bansal Amit Sharma CML 24 5 0 26 May 2023
You Are What You Annotate: Towards Better Models through Annotator Representations Naihao Deng Xinliang Frederick Zhang Siyang Liu Winston Wu Lu Wang Rada Mihalcea 23 20 0 24 May 2023
Having Beer after Prayer? Measuring Cultural Bias in Large Language Models Tarek Naous Michael Joseph Ryan Alan Ritter Wei-ping Xu 37 85 0 23 May 2023
Evaluation of African American Language Bias in Natural Language Generation Nicholas Deas Jessica A. Grieser Shana Kleiner D. Patton Elsbeth Turcan Kathleen McKeown 13 26 0 23 May 2023
BiasX: "Thinking Slow" in Toxic Content Moderation with Explanations of Implied Social Biases Yiming Zhang Sravani Nanduri Liwei Jiang Tongshuang Wu Maarten Sap 39 7 0 23 May 2023
Analyzing Norm Violations in Live-Stream Chat Jihyung Moon Dong-Ho Lee Hyundong Justin Cho Woojeong Jin Chan Young Park MinWoo Kim Jonathan May Jay Pujara Sungjoon Park 23 4 0 18 May 2023
PaLM 2 Technical Report Rohan Anil Andrew M. Dai Orhan Firat Melvin Johnson Dmitry Lepikhin ... Ce Zheng Wei Zhou Denny Zhou Slav Petrov Yonghui Wu ReLM LRM 95 1,148 0 17 May 2023
It Takes Two to Tango: Navigating Conceptualizations of NLP Tasks and Measurements of Performance Arjun Subramonian Xingdi Yuan Hal Daumé Su Lin Blodgett 41 17 0 15 May 2023
What's the Meaning of Superhuman Performance in Today's NLU? Simone Tedeschi Johan Bos T. Declerck Jan Hajic Daniel Hershcovich ... Simon Krek Steven Schockaert Rico Sennrich Ekaterina Shutova Roberto Navigli ELM LM&MA VLM ReLM LRM 34 26 0 15 May 2023
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models Shangbin Feng Chan Young Park Yuhan Liu Yulia Tsvetkov 19 226 0 15 May 2023
Toxicity Inspector: A Framework to Evaluate Ground Truth in Toxicity Detection Through Feedback Huriyyah Althunayan Rahaf Bahlas Manar Alharbi Lena Alsuwailem Abeer Aldayel Rehab Alahmadi 18 0 0 11 May 2023
When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks Eve Fleisig Rediet Abebe Dan Klein 26 43 0 11 May 2023
Analyzing Hong Kong's Legal Judgments from a Computational Linguistics point-of-view Sankalok Sen AILaw 15 0 0 04 May 2023
PeaCoK: Persona Commonsense Knowledge for Consistent and Engaging Narratives Silin Gao Beatriz Borges B. Su Stan N. Finkelstein Saya Kanno Hiromi Wakaki Yuki Mitsufuji Antoine Bosselut 37 19 0 03 May 2023
Judgment Sieve: Reducing Uncertainty in Group Judgments through Interventions Targeting Ambiguity versus Disagreement Quan Ze Chen Amy X. Zhang 32 7 0 02 May 2023
Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation Patrick Fernandes Aman Madaan Emmy Liu António Farinhas Pedro Henrique Martins ... José G. C. de Souza Shuyan Zhou Tongshuang Wu Graham Neubig André F. T. Martins ALM 117 56 0 01 May 2023
We're Afraid Language Models Aren't Modeling Ambiguity Alisa Liu Zhaofeng Wu Julian Michael Alane Suhr Peter West Alexander Koller Swabha Swayamdipta Noah A. Smith Yejin Choi 63 90 0 27 Apr 2023
"HOT" ChatGPT: The promise of ChatGPT in detecting and discriminating hateful, offensive, and toxic comments on social media Lingyao Li Lizhou Fan Shubham Atreja Libby Hemphill AI4MH 47 84 0 20 Apr 2023
Cross-Cultural Transfer Learning for Chinese Offensive Language Detection Li Zhou Laura Cabello Yongfa Cao Daniel Hershcovich 24 15 0 31 Mar 2023
Whose Opinions Do Language Models Reflect? Shibani Santurkar Esin Durmus Faisal Ladhak Cinoo Lee Percy Liang Tatsunori Hashimoto 21 385 0 30 Mar 2023
Towards Countering Essentialism through Social Bias Reasoning Emily Allaway Nina Taneja Sarah-Jane Leslie Maarten Sap 19 4 0 28 Mar 2023
SemEval-2023 Task 10: Explainable Detection of Online Sexism Hannah Rose Kirk Wenjie Yin Bertie Vidgen Paul Röttger 16 117 0 07 Mar 2023
Fairness in Language Models Beyond English: Gaps and Challenges Krithika Ramesh Sunayana Sitaram Monojit Choudhury 32 23 0 24 Feb 2023
Auditing large language models: a three-layered approach Jakob Mokander Jonas Schuett Hannah Rose Kirk Luciano Floridi AILaw MLAU 45 194 0 16 Feb 2023
Lived Experience Matters: Automatic Detection of Stigma on Social Media Toward People Who Use Substances Salvatore Giorgi Douglas Bellew Daniel Roy Sadek Habib G. Sherman Joao Sedoc Chase Smitterberg Amanda Devoto McKenzie Himelein-Wachowiak Brenda L. Curtis 22 3 0 04 Feb 2023
Vicarious Offense and Noise Audit of Offensive Speech Classifiers: Unifying Human and Machine Disagreement on What is Offensive Tharindu Cyril Weerasooriya Sujan Dutta Tharindu Ranasinghe Marcos Zampieri Christopher Homan Ashiqur R. KhudaBukhsh AAML 33 20 0 29 Jan 2023
Investigating Labeler Bias in Face Annotation for Machine Learning Luke Haliburton Sinksar Ghebremedhin Robin Welsch Albrecht Schmidt Sven Mayer 26 4 0 24 Jan 2023
Everyone's Voice Matters: Quantifying Annotation Disagreement Using Demographic Information Ruyuan Wan Jaehyung Kim Dongyeop Kang 9 36 0 12 Jan 2023
Personalized Prediction of Offensive News Comments by Considering the Characteristics of Commenters Teruki Nakahara Taketoshi Ushiama AAML 14 0 0 26 Dec 2022
Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts Skyler Hallinan Alisa Liu Yejin Choi Maarten Sap 14 36 0 20 Dec 2022
POTATO: The Portable Text Annotation Tool Jiaxin Pei Aparna Ananthasubramaniam Xingyao Wang Naitian Zhou Jackson Sargent Apostolos Dedeloudis David Jurgens VLM 24 58 0 16 Dec 2022
The 'Problem' of Human Label Variation: On Ground Truth in Data, Modeling and Evaluation Barbara Plank 30 97 0 04 Nov 2022
System Demo: Tool and Infrastructure for Offensive Language Error Analysis (OLEA) in English M. Grace XajavionJaySeabrum Dananjay Srinivas Alexis Palmer 37 0 0 28 Oct 2022
Unifying Data Perspectivism and Personalization: An Application to Social Norms Joan Plepi Béla Neuendorf Lucie Flek Charles F Welch 38 21 0 26 Oct 2022
Cascading Biases: Investigating the Effect of Heuristic Annotation Strategies on Data and Models Chaitanya Malaviya Sudeep Bhatia Mark Yatskar 24 4 0 24 Oct 2022
Scaling Instruction-Finetuned Language Models Hyung Won Chung Le Hou Shayne Longpre Barret Zoph Yi Tay ... Jacob Devlin Adam Roberts Denny Zhou Quoc V. Le Jason W. Wei ReLM LRM 62 2,989 0 20 Oct 2022
How Hate Speech Varies by Target Identity: A Computational Analysis Michael Miller Yoder Lynnette Hui Xian Ng D. W. Brown Kathleen M. Carley 25 20 0 19 Oct 2022
Mitigating Covertly Unsafe Text within Natural Language Systems Alex Mei Anisha Kabir Sharon Levy Melanie Subbiah Emily Allaway J. Judge D. Patton Bruce Bimber Kathleen McKeown William Yang Wang 50 13 0 17 Oct 2022
Language Generation Models Can Cause Harm: So What Can We Do About It? An Actionable Survey Sachin Kumar Vidhisha Balachandran Lucille Njoo Antonios Anastasopoulos Yulia Tsvetkov ELM 74 85 0 14 Oct 2022
Noise Audits Improve Moral Foundation Classification Negar Mokhberian F. R. Hopp Bahareh Harandizadeh Fred Morstatter Kristina Lerman NoLa 19 4 0 13 Oct 2022
Unified Detoxifying and Debiasing in Language Generation via Inference-time Adaptive Optimization Zonghan Yang Xiaoyuan Yi Peng Li Yang Liu Xing Xie 30 33 0 10 Oct 2022
Data Feedback Loops: Model-driven Amplification of Dataset Biases Rohan Taori Tatsunori B. Hashimoto 71 43 0 08 Sep 2022
Understanding Interpersonal Conflict Types and their Impact on Perception Classification Charles F Welch Joan Plepi Béla Neuendorf Lucie Flek 27 6 0 18 Aug 2022
Democratizing Ethical Assessment of Natural Language Generation Models A. Rasekh Ian W. Eisenberg ELM 25 1 0 30 Jun 2022
Multilingual HateCheck: Functional Tests for Multilingual Hate Speech Detection Models Paul Röttger Haitham Seelawi Debora Nozza Zeerak Talat Bertie Vidgen 30 65 0 20 Jun 2022
Acquiring and Modelling Abstract Commonsense Knowledge via Conceptualization Mutian He Tianqing Fang Weiqi Wang Yangqiu Song 35 29 0 03 Jun 2022
ProsocialDialog: A Prosocial Backbone for Conversational Agents Hyunwoo J. Kim Youngjae Yu Liwei Jiang Ximing Lu Daniel Khashabi Gunhee Kim Yejin Choi Maarten Sap 20 117 0 25 May 2022