Latent Hatred: A Benchmark for Understanding Implicit Hate Speech

11 September 2021

Diyi Yang

Papers citing "Latent Hatred: A Benchmark for Understanding Implicit Hate Speech"

28 / 28 papers shown

Title
The Call for Socially Aware Language Technologies Diyi Yang Dirk Hovy David Jurgens Barbara Plank VLM 61 11 0 24 Feb 2025
Evolving Hate Speech Online: An Adaptive Framework for Detection and Mitigation Shiza Ali Jeremy Blackburn Gianluca Stringhini 64 0 0 24 Feb 2025
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective Yuchen Wen Keping Bi Wei Chen J. Guo Xueqi Cheng 89 1 0 20 Feb 2025
SMAB: MAB based word Sensitivity Estimation Framework and its Applications in Adversarial Text Generation Saurabh Kumar Pandey S. Vashistha Debrup Das Somak Aditya Monojit Choudhury AAML 74 0 0 10 Feb 2025
Target Span Detection for Implicit Harmful Content Nazanin Jafari James Allan Sheikh Muhammad Sarwar 38 1 0 28 Mar 2024
Hate Cannot Drive out Hate: Forecasting Conversation Incivility following Replies to Hate Speech Xinchen Yu Eduardo Blanco Lingzi Hong 28 8 0 08 Dec 2023
Interpretation modeling: Social grounding of sentences by reasoning over their implicit moral judgments Liesbeth Allein Maria Mihaela Trucscva Marie-Francine Moens 33 1 0 27 Nov 2023
Latent Feature-based Data Splits to Improve Generalisation Evaluation: A Hate Speech Detection Case Study Maike Zufle Verna Dankers Ivan Titov 42 0 0 16 Nov 2023
Watch Your Language: Investigating Content Moderation with Large Language Models Deepak Kumar Y. AbuHashem Zakir Durumeric AI4MH 36 15 0 25 Sep 2023
HateModerate: Testing Hate Speech Detectors against Content Moderation Policies Jiangrui Zheng Xueqing Liu Guanqun Yang Mirazul Haque Xing Qian Ravishka Rathnasuriya Wei Yang G. Budhrani 37 3 0 23 Jul 2023
A Weakly Supervised Classifier and Dataset of White Supremacist Language Michael Miller Yoder Ahmad Diab D. W. Brown Kathleen M. Carley 30 5 0 27 Jun 2023
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations Lifan Yuan Yangyi Chen Ganqu Cui Hongcheng Gao Fangyuan Zou Xingyi Cheng Heng Ji Zhiyuan Liu Maosong Sun 39 73 0 07 Jun 2023
Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks Abhinav Rao S. Vashistha Atharva Naik Somak Aditya Monojit Choudhury 35 17 0 24 May 2023
Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large Language Models with SocKET Benchmark Minje Choi Jiaxin Pei Sagar Kumar Chang Shu David Jurgens ALM LLMAG 26 69 0 24 May 2023
TalkUp: Paving the Way for Understanding Empowering Language Lucille Njoo Chan Young Park Octavia Stappart Marvin Thielk Yi Chu Yulia Tsvetkov 16 3 0 23 May 2023
GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark Dongyang Li Ruixue Ding Qiang-Wei Zhang Zheng Li Boli Chen ... Yao Xu Xin Li Ning Guo Fei Huang Xiaofeng He ELM VLM 34 5 0 11 May 2023
Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks Yiming Zhu Peixian Zhang Ehsan-ul Haq Pan Hui Gareth Tyson DeLMO ALM AI4MH 35 123 0 20 Apr 2023
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks Fabrizio Gilardi Meysam Alizadeh M. Kubli AI4MH 73 867 0 27 Mar 2023
Leveraging World Knowledge in Implicit Hate Speech Detection Jessica Lin 13 6 0 28 Dec 2022
XMD: An End-to-End Framework for Interactive Explanation-Based Debugging of NLP Models Dong-Ho Lee Akshen Kadakia Brihi Joshi Aaron Chan Ziyi Liu ... Takashi Shibuya Ryosuke Mitani Toshiyuki Sekiya Jay Pujara Xiang Ren LRM 40 9 0 30 Oct 2022
How Hate Speech Varies by Target Identity: A Computational Analysis Michael Miller Yoder Lynnette Hui Xian Ng D. W. Brown Kathleen M. Carley 25 20 0 19 Oct 2022
SafeText: A Benchmark for Exploring Physical Safety in Language Models Sharon Levy Emily Allaway Melanie Subbiah Lydia B. Chilton D. Patton Kathleen McKeown William Yang Wang 59 40 0 18 Oct 2022
The State of Profanity Obfuscation in Natural Language Processing Debora Nozza Dirk Hovy 42 7 0 14 Oct 2022
Combating high variance in Data-Scarce Implicit Hate Speech Classification Debaditya Pal Kaustubh Chaudhari Harsh Sharma 25 1 0 29 Aug 2022
KOLD: Korean Offensive Language Dataset Young-kuk Jeong Juhyun Oh Jaimeen Ahn Jongwon Lee Jihyung Mon Sungjoon Park Alice H. Oh 51 25 0 23 May 2022
Hidden behind the obvious: misleading keywords and implicitly abusive language on social media Wenjie Yin A. Zubiaga 21 26 0 03 May 2022
ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection Thomas Hartvigsen Saadia Gabriel Hamid Palangi Maarten Sap Dipankar Ray Ece Kamar 22 347 0 17 Mar 2022
Handling Bias in Toxic Speech Detection: A Survey Tanmay Garg Sarah Masud Tharun Suresh Tanmoy Chakraborty 11 91 0 26 Jan 2022