RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of Conversational Language Models

7 June 2021

Papers citing "RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of Conversational Language Models"

50 / 116 papers shown

Title
Mitigating Group-Level Fairness Disparities in Federated Visual Language Models Chaomeng Chen Zitong Yu J. Dong Sen Su L. Shen Shutao Xia Xiaochun Cao FedML VLM 146 0 0 03 May 2025
BiasGuard: A Reasoning-enhanced Bias Detection Tool For Large Language Models Zhiting Fan Ruizhe Chen Zuozhu Liu 44 0 0 30 Apr 2025
$$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation$ $\texttt{SAGE}$ : A Generic Framework for LLM Safety Evaluation Madhur Jindal Hari Shrawgi Parag Agrawal Sandipan Dandapat ELM 47 0 0 28 Apr 2025
Gender and content bias in Large Language Models: a case study on Google Gemini 2.0 Flash Experimental Roberto Balestri 42 0 0 18 Mar 2025
BiasEdit: Debiasing Stereotyped Language Models via Model Editing Xin Xu Wei Xu N. Zhang Julian McAuley KELM 39 0 0 11 Mar 2025
Detecting Linguistic Indicators for Stereotype Assessment with Large Language Models Rebekka Görge Michael Mock Héctor Allende-Cid 73 0 0 26 Feb 2025
CHBench: A Chinese Dataset for Evaluating Health in Large Language Models Chenlu Guo Nuo Xu Yi-Ju Chang Yuan Wu AI4MH LM&MA 57 1 0 24 Feb 2025
Evaluating the Effect of Retrieval Augmentation on Social Biases Tianhui Zhang Yi Zhou Danushka Bollegala 38 0 0 24 Feb 2025
Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs Angelina Wang Michelle Phan Daniel E. Ho Sanmi Koyejo 54 2 0 04 Feb 2025
Foundation Models at Work: Fine-Tuning for Fairness in Algorithmic Hiring Buse Sibel Korkmaz Rahul Nair Elizabeth M. Daly Evangelos Anagnostopoulos Christos Varytimidis Antonio del Rio Chanona 40 0 0 13 Jan 2025
LangFair: A Python Package for Assessing Bias and Fairness in Large Language Model Use Cases Dylan Bouchard Mohit Singh Chauhan David Skarbrevik Viren Bajaj Zeya Ahmad 38 0 0 06 Jan 2025
Bias Vector: Mitigating Biases in Language Models with Task Arithmetic Approach Daiki Shirafuji Makoto Takenaka Shinya Taguchi LLMAG 72 0 0 16 Dec 2024
Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models S. Tong Eliott Zemour Rawisara Lohanimit Lalana Kagal 60 0 0 02 Dec 2024
Bias in Large Language Models: Origin, Evaluation, and Mitigation Yufei Guo Muzhe Guo Juntao Su Zhou Yang Mengqiu Zhu Hongfei Li Mengyang Qiu Shuo Shuo Liu AILaw 30 9 0 16 Nov 2024
Survey of User Interface Design and Interaction Techniques in Generative AI Applications Reuben Luera Ryan Rossi Alexa F. Siu Franck Dernoncourt Tong Yu ... Hanieh Salehy Jian Zhao Samyadeep Basu Puneet Mathur Nedim Lipka AI4TS 63 1 0 28 Oct 2024
FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs Zhiting Fan Ruizhe Chen Tianxiang Hu Zuozhu Liu 23 7 0 25 Oct 2024
Local Contrastive Editing of Gender Stereotypes Marlene Lutz Rochelle Choenni M. Strohmaier Anne Lauscher 32 1 0 23 Oct 2024
Large Language Models Still Exhibit Bias in Long Text Wonje Jeung Dongjae Jeon Ashkan Yousefpour Jonghyun Choi ALM 29 3 0 23 Oct 2024
LLMScan: Causal Scan for LLM Misbehavior Detection Mengdi Zhang Kai Kiat Goh Peixin Zhang Jun Sun Rose Lin Xin Hongyu Zhang 23 0 0 22 Oct 2024
Ethics Whitepaper: Whitepaper on Ethical Research into Large Language Models Eddie L. Ungless Nikolas Vitsakis Zeerak Talat James Garforth Bjorn Ross Arno Onken Atoosa Kasirzadeh Alexandra Birch 28 1 0 17 Oct 2024
A Theoretical Survey on Foundation Models Shi Fu Yuzhu Chen Yingjie Wang Dacheng Tao 28 0 0 15 Oct 2024
COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act Philipp Guldimann Alexander Spiridonov Robin Staab Nikola Jovanović Mark Vero ... Mislav Balunović Nikola Konstantinov Pavol Bielik Petar Tsankov Martin Vechev ELM 47 4 0 10 Oct 2024
MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification Siddhant Bikram Shah Shuvam Shiwakoti Maheep Chaudhary Haohan Wang VLM 25 9 0 23 Sep 2024
SAGED: A Holistic Bias-Benchmarking Pipeline for Language Models with Customisable Fairness Calibration Xin Guan Nathaniel Demchak Saloni Gupta Ze Wang Ediz Ertekin Jr. Adriano Soares Koshiyama Emre Kazim Zekun Wu 42 2 0 17 Sep 2024
A Study on Bias Detection and Classification in Natural Language Processing Ana Sofia Evans Helena Moniz Luísa Coheur 33 0 0 14 Aug 2024
GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy Jan Batzner Volker Stocker Stefan Schmid Gjergji Kasneci 23 1 0 25 Jul 2024
Towards Transfer Unlearning: Empirical Evidence of Cross-Domain Bias Mitigation Huimin Lu Masaru Isonuma Junichiro Mori Ichiro Sakata MU 23 0 0 24 Jul 2024
BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs Zhiting Fan Ruizhe Chen Ruiling Xu Zuozhu Liu KELM 21 16 0 14 Jul 2024
From 'Showgirls' to 'Performers': Fine-tuning with Gender-inclusive Language for Bias Reduction in LLMs Marion Bartl Susan Leavy 43 8 0 05 Jul 2024
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models Song Wang Peng Wang Tong Zhou Yushun Dong Zhen Tan Jundong Li CoGe 56 7 0 02 Jul 2024
A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers Valentin Barriere Sebastian Cifuentes 28 0 0 01 Jul 2024
OxonFair: A Flexible Toolkit for Algorithmic Fairness Eoin Delaney Zihao Fu Sandra Wachter Brent Mittelstadt Chris Russell FaML 59 3 0 30 Jun 2024
Fairness and Bias in Multimodal AI: A Survey Tosin P. Adewumi Lama Alkhaled Namrata Gurung G. V. Boven Irene Pagliai 58 9 0 27 Jun 2024
Native Design Bias: Studying the Impact of English Nativeness on Language Model Performance Manon Reusens Philipp Borchert Jochen De Weerdt Bart Baesens 42 1 0 25 Jun 2024
Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing Han Jiang Xiaoyuan Yi Zhihua Wei Shu Wang Xing Xie Xing Xie ALM ELM 50 5 0 20 Jun 2024
Evaluation of Large Language Models: STEM education and Gender Stereotypes Smilla Due Sneha Das Marianne Andersen Berta Plandolit López Sniff Andersen Nexø Line Clemmensen 39 1 0 14 Jun 2024
Expert-Guided Extinction of Toxic Tokens for Debiased Generation Xueyao Sun Kaize Shi Haoran Tang Guandong Xu Qing Li MU 43 1 0 29 May 2024
MBIAS: Mitigating Bias in Large Language Models While Retaining Context Shaina Raza Ananya Raval Veronica Chatrath 48 6 0 18 May 2024
Akal Badi ya Bias: An Exploratory Study of Gender Bias in Hindi Language Technology Rishav Hada Safiya Husain Varun Gumma Harshita Diddee Aditya Yadavalli ... Nidhi Kulkarni U. Gadiraju Aditya Vashistha Vivek Seshadri Kalika Bali 51 5 0 10 May 2024
REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models Sana Ebrahimi N. Shahbazi Abolfazl Asudeh 37 1 0 17 Apr 2024
Analyzing Toxicity in Deep Conversations: A Reddit Case Study Vigneshwaran Shankaran Rajesh Sharma 41 1 0 11 Apr 2024
FairPair: A Robust Evaluation of Biases in Language Models through Paired Perturbations Jane Dwivedi-Yu Raaz Dwivedi Timo Schick 35 2 0 09 Apr 2024
Fairness in Large Language Models: A Taxonomic Survey Zhibo Chu Zichong Wang Wenbin Zhang AILaw 43 33 0 31 Mar 2024
Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction Ziyang Xu Keqin Peng Liang Ding Dacheng Tao Xiliang Lu 34 10 0 15 Mar 2024
AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language Model Outputs Sana Ebrahimi Kaiwen Chen Abolfazl Asudeh Gautam Das Nick Koudas 19 4 0 01 Mar 2024
MAGPIE: Multi-Task Media-Bias Analysis Generalization for Pre-Trained Identification of Expressions Tomávs Horych Martin Wessel Jan Philip Wahle Terry Ruas Jerome Wassmuth André Greiner-Petter Akiko Aizawa Bela Gipp Timo Spinde 38 1 0 27 Feb 2024
COBIAS: Assessing the Contextual Reliability of Bias Benchmarks for Language Models Priyanshul Govil Hemang Jain Vamshi Krishna Bonagiri Aman Chadha Ponnurangam Kumaraguru Manas Gaur Sanorita Dey 53 2 0 22 Feb 2024
A survey of recent methods for addressing AI fairness and bias in biomedicine Yifan Yang Mingquan Lin Han Zhao Yifan Peng Furong Huang Zhiyong Lu 34 15 0 13 Feb 2024
MAFIA: Multi-Adapter Fused Inclusive LanguAge Models Prachi Jain Ashutosh Sathe Varun Gumma Kabir Ahuja Sunayana Sitaram 28 1 0 12 Feb 2024
IndiVec: An Exploration of Leveraging Large Language Models for Media Bias Detection with Fine-Grained Bias Indicators Luyang Lin Lingzhi Wang Xiaoyan Zhao Jing Li Kam-Fai Wong 33 12 0 01 Feb 2024