v1v2v3 (latest)

Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning

8 April 2025

Papers citing "Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning"

22 / 22 papers shown

Title
Rethinking Prompt-based Debiasing in Large Language Models Xinyi Yang Runzhe Zhan Derek F. Wong Shu Yang Junchao Wu Lidia S. Chao ALM 172 1 0 12 Mar 2025
DR.GAP: Mitigating Bias in Large Language Models using Gender-Aware Prompting with Demonstration and Reasoning Hongye Qiu Yue Xu Meikang Qiu Wenjie Wang LRM 90 1 0 17 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 380 2,013 0 22 Jan 2025
MBIAS: Mitigating Bias in Large Language Models While Retaining Context Shaina Raza Ananya Raval Veronica Chatrath 127 10 0 18 May 2024
Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models Shaz Furniturewala Surgan Jandial Abhinav Java Pragyan Banerjee Simra Shahid Sumita Bhatia Kokil Jaidka 104 11 0 16 May 2024
Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought James Chua Edward Rees Hunar Batra Samuel R. Bowman Julian Michael Ethan Perez Miles Turpin LRM 123 13 0 08 Mar 2024
In-Contextual Gender Bias Suppression for Large Language Models Daisuke Oba Masahiro Kaneko Danushka Bollegala 83 9 0 13 Sep 2023
Bias and Fairness in Large Language Models: A Survey Isabel O. Gallegos Ryan Rossi Joe Barrow Md Mehrab Tanjim Sungchul Kim Franck Dernoncourt Tong Yu Ruiyi Zhang Nesreen Ahmed AILaw 125 601 0 02 Sep 2023
Large Language Models Michael R Douglas LLMAG LM&MA 140 644 0 11 Jul 2023
Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond Fangzhi Xu Qika Lin Jiawei Han Tianzhe Zhao Jun Liu Min Zhang ELM LRM 152 41 0 16 Jun 2023
Fairness-guided Few-shot Prompting for Large Language Models Huan Ma Changqing Zhang Yatao Bian Lemao Liu Zhirui Zhang P. Zhao Shu Zhen Zhang Huazhu Fu Qinghua Hu Bing Wu LLMAG LRM 72 38 0 23 Mar 2023
The Capacity for Moral Self-Correction in Large Language Models Deep Ganguli Amanda Askell Nicholas Schiefer Thomas I. Liao Kamil.e Lukovsiut.e ... Tom B. Brown C. Olah Jack Clark Sam Bowman Jared Kaplan LRM ReLM 88 170 0 15 Feb 2023
Specializing Smaller Language Models towards Multi-Step Reasoning Yao Fu Hao-Chun Peng Litu Ou Ashish Sabharwal Tushar Khot ReLM LRM 103 260 0 30 Jan 2023
On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning Omar Shaikh Hongxin Zhang William B. Held Michael S. Bernstein Diyi Yang ReLM LRM 149 200 0 15 Dec 2022
Prompting GPT-3 To Be Reliable Chenglei Si Zhe Gan Zhengyuan Yang Shuohang Wang Jianfeng Wang Jordan L. Boyd-Graber Lijuan Wang KELM LRM 100 302 0 17 Oct 2022
BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation Tianxiang Sun Junliang He Xipeng Qiu Xuanjing Huang 85 47 0 14 Oct 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 544 4,077 0 24 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 897 13,228 0 04 Mar 2022
BBQ: A Hand-Built Bias Benchmark for Question Answering Alicia Parrish Angelica Chen Nikita Nangia Vishakh Padmakumar Jason Phang Jana Thompson Phu Mon Htut Sam Bowman 270 425 0 15 Oct 2021
Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP Timo Schick Sahana Udupa Hinrich Schütze 315 388 0 28 Feb 2021
StereoSet: Measuring stereotypical bias in pretrained language models Moin Nadeem Anna Bethke Siva Reddy 101 1,020 0 20 Apr 2020
Know What You Don't Know: Unanswerable Questions for SQuAD Pranav Rajpurkar Robin Jia Percy Liang RALM ELM 292 2,854 0 11 Jun 2018