HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection

18 December 2020

Papers citing "HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection"

37 / 37 papers shown

Title
AmpleHate: Amplifying the Attention for Versatile Implicit Hate Detection Yejin Lee Joonghyuk Hahn Hyeseon Ahn Yo-Sub Han 80 0 0 26 May 2025
Large Language Models Do Multi-Label Classification Differently Marcus Ma Georgios Chochlakis Niyantha Maruthu Pandiyan Jesse Thomason Shrikanth Narayanan 90 1 0 23 May 2025
CHBench: A Chinese Dataset for Evaluating Health in Large Language Models Chenlu Guo Nuo Xu Yi-Ju Chang Yuan Wu AI4MH LM&MA 90 2 0 24 Feb 2025
Towards a Robust Framework for Multimodal Hate Detection: A Study on Video vs. Image-based Content Girish A. Koushik Diptesh Kanojia Helen Treharne 115 2 0 11 Feb 2025
HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns Xinyue Shen Yixin Wu Y. Qu Michael Backes Savvas Zannettou Yang Zhang 108 5 0 28 Jan 2025
SCCD: A Session-based Dataset for Chinese Cyberbullying Detection Qingpo Yang Yakai Chen Zihui Xu Yu-ming Shang Sanchuan Guo Xi Zhang 90 2 0 28 Jan 2025
Regularization, Semi-supervision, and Supervision for a Plausible Attention-Based Explanation Duc Hau Nguyen Cyrielle Mallart Guillaume Gravier Pascale Sébillot 115 0 0 22 Jan 2025
Longitudinal Abuse and Sentiment Analysis of Hollywood Movie Dialogues using LLMs Rohitash Chandra Guoxiang Ren G. Houseman 96 0 0 20 Jan 2025
ClarityEthic: Explainable Moral Judgment Utilizing Contrastive Ethical Insights from Large Language Models Yuxi Sun Wei Gao Jing Ma Hongzhan Lin Ziyang Luo Wenxuan Zhang ELM 143 0 0 17 Dec 2024
Multi3Hate: Multimodal, Multilingual, and Multicultural Hate Speech Detection with Vision-Language Models Minh Duc Bui Katharina von der Wense Anne Lauscher VLM 69 1 0 06 Nov 2024
Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers Lam Nguyen Tung Steven Cho Xiaoning Du Neelofar Neelofar Valerio Terragni Stefano Ruberto Aldeida Aleti 478 2 0 30 Oct 2024
DefVerify: Do Hate Speech Models Reflect Their Dataset's Definition? Urja Khurana Eric T. Nalisnick Antske Fokkens 101 2 0 21 Oct 2024
Explanation Regularisation through the Lens of Attributions Pedro Ferreira Wilker Aziz Ivan Titov 129 1 0 23 Jul 2024
ViTHSD: Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts Cuong Nhat Vo Khanh Bao Huynh Son T. Luu Trong-Hop Do 57 1 0 30 Apr 2024
From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets Manuel Tonneau Diyi Liu Samuel Fraiberger Ralph Schroeder Scott A. Hale Paul Röttger 70 6 0 27 Apr 2024
Deep Learning Models for Multilingual Hate Speech Detection Sai Saket Aluru Binny Mathew Punyajoy Saha Animesh Mukherjee 74 151 0 14 Apr 2020
Towards Faithfully Interpretable NLP Systems: How should we define and evaluate faithfulness? Alon Jacovi Yoav Goldberg XAI 119 597 0 07 Apr 2020
Hate Speech Detection on Vietnamese Social Media Text using the Bi-GRU-LSTM-CNN Model Tin Van Huynh Duc-Vu Nguyen Kiet Van Nguyen Ngan Luu-Thuy Nguyen A. Nguyen VLM 56 32 0 09 Nov 2019
ERASER: A Benchmark to Evaluate Rationalized NLP Models Jay DeYoung Sarthak Jain Nazneen Rajani Eric P. Lehman Caiming Xiong R. Socher Byron C. Wallace 115 637 0 08 Nov 2019
A Benchmark Dataset for Learning to Intervene in Online Hate Speech Jing Qian Anna Bethke Yinyin Liu E. Belding-Royer William Yang Wang 42 222 0 10 Sep 2019
Multilingual and Multi-Aspect Hate Speech Analysis N. Ousidhoum Zizheng Lin Hongming Zhang Yangqiu Song Dit-Yan Yeung 83 289 0 29 Aug 2019
Explain Yourself! Leveraging Language Models for Commonsense Reasoning Nazneen Rajani Bryan McCann Caiming Xiong R. Socher ReLM LRM 82 565 0 06 Jun 2019
Racial Bias in Hate Speech and Abusive Language Detection Datasets Thomas Davidson Debasmita Bhattacharya Ingmar Weber 99 457 0 29 May 2019
Learning to Decipher Hate Symbols Jing Qian Mai Elsherief E. Belding-Royer William Yang Wang 53 17 0 04 Apr 2019
Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification Daniel Borkan Lucas Dixon Jeffrey Scott Sorensen Nithum Thain Lucy Vasserman 88 489 0 11 Mar 2019
e-SNLI: Natural Language Inference with Natural Language Explanations Oana-Maria Camburu Tim Rocktaschel Thomas Lukasiewicz Phil Blunsom LRM 414 638 0 04 Dec 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.8K 94,891 0 11 Oct 2018
Hate Speech Dataset from a White Supremacy Forum Ona de Gibert Naiara Pérez Aitor García-Pablos Montse Cuadros 72 421 0 12 Sep 2018
Hierarchical CVAE for Fine-Grained Hate Speech Classification Jing Qian Mai Elsherief E. Belding-Royer William Yang Wang 51 47 0 31 Aug 2018
Leveraging Intra-User and Inter-User Representation Learning for Automated Hate Speech Detection Jing Qian Mai Elsherief E. Belding-Royer William Yang Wang 51 87 0 09 Apr 2018
Automated Hate Speech Detection and the Problem of Offensive Language Thomas Davidson Dana Warmsley M. Macy Ingmar Weber 76 2,688 0 11 Mar 2017
Towards A Rigorous Science of Interpretable Machine Learning Finale Doshi-Velez Been Kim XAI FaML 399 3,798 0 28 Feb 2017
Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling Bing-Quan Liu Ian Lane 76 677 0 06 Sep 2016
Rationalizing Neural Predictions Tao Lei Regina Barzilay Tommi Jaakkola 113 812 0 13 Jun 2016
The Mythos of Model Interpretability Zachary Chase Lipton FaML 180 3,701 0 10 Jun 2016
"Why Should I Trust You?": Explaining the Predictions of Any Classifier Marco Tulio Ribeiro Sameer Singh Carlos Guestrin FAtt FaML 1.2K 16,990 0 16 Feb 2016
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 1.8K 150,115 0 22 Dec 2014