Evaluating GPT-3 Generated Explanations for Hateful Content Moderation

v1v2v3v4 (latest)

Evaluating GPT-3 Generated Explanations for Hateful Content Moderation

28 May 2023

Ming Shan Hee

ArXiv (abs)PDF HTML Github (4★)

Papers citing "Evaluating GPT-3 Generated Explanations for Hateful Content Moderation"

4 / 4 papers shown

Title
EdgeAIGuard: Agentic LLMs for Minor Protection in Digital Spaces Ghulam Mujtaba Sunder Ali Khowaja Kapal Dev 159 0 0 28 Feb 2025
Reasoning About Persuasion: Can LLMs Enable Explainable Propaganda Detection? Maram Hasanain Md. Arid Hasan Mohamed Bayan Kmainasi Elisa Sartori Ali Ezzat Shahroor Giovanni Da San Martino Firoj Alam 89 0 0 23 Feb 2025
Demystifying Hateful Content: Leveraging Large Multimodal Models for Hateful Meme Detection with Explainable Decisions Ming Shan Hee Roy Ka-wei Lee VLM 114 1 0 16 Feb 2025
BanTH: A Multi-label Hate Speech Detection Dataset for Transliterated Bangla Fabiha Haider Fariha Tanjim Shifat Md Farhan Ishmam Deeparghya Dutta Barua Md Sakib Ul Rahman Sourove Md Fahim Md Farhad Alam 124 1 0 17 Oct 2024