Personalisation or Prejudice? Addressing Geographic Bias in Hate Speech Detection using Debias Tuning in Large Language Models

4 May 2025

Papers citing "Personalisation or Prejudice? Addressing Geographic Bias in Hate Speech Detection using Debias Tuning in Large Language Models"

15 / 15 papers shown

Title
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs Abdelrahman Abouelenin Atabak Ashfaq Adam Atkinson Hany Awadalla Nguyen Bach ... Ishmam Zabir Yunan Zhang Li Zhang Yanzhe Zhang Xiren Zhou MoE SyDa 99 59 0 03 Mar 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 370 1,692 0 22 Jan 2025
Decoding Hate: Exploring Language Models' Reactions to Hate Speech Paloma Piot Javier Parapar 93 2 0 01 Oct 2024
Exploring Changes in Nation Perception with Nationality-Assigned Personas in LLMs M. Kamruzzaman Gene Louis Kim 58 6 0 20 Jun 2024
Disclosure and Mitigation of Gender Bias in LLMs Xiangjue Dong Yibo Wang Philip S. Yu James Caverlee 45 35 0 17 Feb 2024
The Ethics of Interaction: Mitigating Security Threats in LLMs Ashutosh Kumar Shiv Vignesh Murty Sagarika Singh Swathy Ragupathy 78 38 0 22 Jan 2024
HateMM: A Multi-Modal Dataset for Hate Video Classification Mithun Das R. Raj Punyajoy Saha Binny Mathew Manish Gupta Animesh Mukherjee 55 35 0 06 May 2023
Hate Speech Detection and Racial Bias Mitigation in Social Media based on BERT model Marzieh Mozafari R. Farahbakhsh Noel Crespi 55 222 0 14 Aug 2020
Demoting Racial Bias in Hate Speech Detection Mengzhou Xia Anjalie Field Yulia Tsvetkov 61 122 0 25 May 2020
Quantifying the Carbon Emissions of Machine Learning Alexandre Lacoste A. Luccioni Victor Schmidt Thomas Dandres 94 707 0 21 Oct 2019
Racial Bias in Hate Speech and Abusive Language Detection Datasets Thomas Davidson Debasmita Bhattacharya Ingmar Weber 99 457 0 29 May 2019
Challenges for Toxic Comment Classification: An In-Depth Error Analysis Betty van Aken Julian Risch Ralf Krestel Alexander Loser 64 222 0 20 Sep 2018
Learning Gender-Neutral Word Embeddings Jieyu Zhao Yichao Zhou Zeyu Li Wei Wang Kai-Wei Chang FaML 94 413 0 29 Aug 2018
Hate Speech Detection: A Solved Problem? The Challenging Case of Long Tail on Twitter Ziqi Zhang Le Luo 46 294 0 27 Feb 2018
Domain-Adversarial Training of Neural Networks Yaroslav Ganin E. Ustinova Hana Ajakan Pascal Germain Hugo Larochelle François Laviolette M. Marchand Victor Lempitsky GAN OOD 378 9,497 0 28 May 2015