GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection?

23 February 2024

Papers citing "GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection?"

12 / 12 papers shown

Title
A Holistic Approach to Undesired Content Detection in the Real World Todor Markov Chong Zhang Sandhini Agarwal Tyna Eloundou Teddy Lee Steven Adler Angela Jiang L. Weng 92 229 0 05 Aug 2022
Emergent Abilities of Large Language Models Jason W. Wei Yi Tay Rishi Bommasani Colin Raffel Barret Zoph ... Tatsunori Hashimoto Oriol Vinyals Percy Liang J. Dean W. Fedus ELM ReLM LRM 263 2,462 0 15 Jun 2022
ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection Thomas Hartvigsen Saadia Gabriel Hamid Palangi Maarten Sap Dipankar Ray Ece Kamar 70 374 0 17 Mar 2022
Red Teaming Language Models with Language Models Ethan Perez Saffron Huang Francis Song Trevor Cai Roman Ring John Aslanides Amelia Glaese Nat McAleese G. Irving AAML 131 645 0 07 Feb 2022
Towards generalisable hate speech detection: a review on obstacles and solutions Wenjie Yin A. Zubiaga 152 166 0 17 Feb 2021
HateCheck: Functional Tests for Hate Speech Detection Models Paul Röttger B. Vidgen Dong Nguyen Zeerak Talat Helen Z. Margetts J. Pierrehumbert 79 269 0 31 Dec 2020
HateBERT: Retraining BERT for Abusive Language Detection in English Tommaso Caselli Valerio Basile Jelena Mitrović Michael Granitzer 70 369 0 23 Oct 2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 87 604 0 10 May 2020
Beyond Accuracy: Behavioral Testing of NLP models with CheckList Marco Tulio Ribeiro Tongshuang Wu Carlos Guestrin Sameer Singh ELM 194 1,100 0 08 May 2020
Benchmarking Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach Wenpeng Yin Jamaal Hay Dan Roth 147 546 0 31 Aug 2019
Targeted Syntactic Evaluation of Language Models Rebecca Marvin Tal Linzen 70 415 0 27 Aug 2018
A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference Adina Williams Nikita Nangia Samuel R. Bowman 503 4,473 0 18 Apr 2017