GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection?

23 February 2024

Papers citing "GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection?"

13 / 13 papers shown

Title
A Holistic Approach to Undesired Content Detection in the Real World Todor Markov Chong Zhang Sandhini Agarwal Tyna Eloundou Teddy Lee Steven Adler Angela Jiang L. Weng 92 230 0 05 Aug 2022
Emergent Abilities of Large Language Models Jason W. Wei Yi Tay Rishi Bommasani Colin Raffel Barret Zoph ... Tatsunori Hashimoto Oriol Vinyals Percy Liang J. Dean W. Fedus ELM ReLM LRM 263 2,462 0 15 Jun 2022
ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection Thomas Hartvigsen Saadia Gabriel Hamid Palangi Maarten Sap Dipankar Ray Ece Kamar 70 374 0 17 Mar 2022
Red Teaming Language Models with Language Models Ethan Perez Saffron Huang Francis Song Trevor Cai Roman Ring John Aslanides Amelia Glaese Nat McAleese G. Irving AAML 131 651 0 07 Feb 2022
Towards generalisable hate speech detection: a review on obstacles and solutions Wenjie Yin A. Zubiaga 152 166 0 17 Feb 2021
HateCheck: Functional Tests for Hate Speech Detection Models Paul Röttger B. Vidgen Dong Nguyen Zeerak Talat Helen Z. Margetts J. Pierrehumbert 79 269 0 31 Dec 2020
HateBERT: Retraining BERT for Abusive Language Detection in English Tommaso Caselli Valerio Basile Jelena Mitrović Michael Granitzer 70 369 0 23 Oct 2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 87 604 0 10 May 2020
Beyond Accuracy: Behavioral Testing of NLP models with CheckList Marco Tulio Ribeiro Tongshuang Wu Carlos Guestrin Sameer Singh ELM 200 1,100 0 08 May 2020
Benchmarking Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach Wenpeng Yin Jamaal Hay Dan Roth 155 547 0 31 Aug 2019
Targeted Syntactic Evaluation of Language Models Rebecca Marvin Tal Linzen 70 415 0 27 Aug 2018
Texygen: A Benchmarking Platform for Text Generation Models Yaoming Zhu Sidi Lu Lei Zheng Jiaxian Guo Weinan Zhang Jun Wang Yong Yu 92 684 0 06 Feb 2018
A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference Adina Williams Nikita Nangia Samuel R. Bowman 509 4,473 0 18 Apr 2017