Persistent Anti-Muslim Bias in Large Language Models

14 January 2021

Papers citing "Persistent Anti-Muslim Bias in Large Language Models"

50 / 295 papers shown

Title
Safe RLHF: Safe Reinforcement Learning from Human Feedback Josef Dai Xuehai Pan Ruiyang Sun Jiaming Ji Xinbo Xu Mickel Liu Yizhou Wang Yaodong Yang 43 303 0 19 Oct 2023
The Curious Case of Hallucinatory (Un)answerability: Finding Truths in the Hidden States of Over-Confident Large Language Models Aviv Slobodkin Omer Goldman Avi Caciularu Ido Dagan Shauli Ravfogel HILM LRM 54 24 0 18 Oct 2023
Learning from Red Teaming: Gender Bias Provocation and Mitigation in Large Language Models Hsuan Su Cheng-Chu Cheng Hua Farn Shachi H. Kumar Saurav Sahay Shang-Tse Chen Hung-yi Lee 36 4 0 17 Oct 2023
The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values Hannah Rose Kirk Andrew M. Bean Bertie Vidgen Paul Röttger Scott A. Hale ALM 26 42 0 11 Oct 2023
Are Emily and Greg Still More Employable than Lakisha and Jamal? Investigating Algorithmic Hiring Bias in the Era of ChatGPT A. Veldanda Fabian Grob Shailja Thakur Hammond Pearce Benjamin Tan Ramesh Karri Siddharth Garg 40 16 0 08 Oct 2023
DataInf: Efficiently Estimating Data Influence in LoRA-tuned LLMs and Diffusion Models Yongchan Kwon Eric Wu K. Wu James Zou DiffM TDI 20 54 0 02 Oct 2023
Unlocking Bias Detection: Leveraging Transformer-Based Models for Content Analysis Shaina Raza Oluwanifemi Bamgbose Veronica Chatrath Shardul Ghuge Yan Sidyakin Abdullah Y. Muaad 34 11 0 30 Sep 2023
Large Language Model Alignment: A Survey Tianhao Shen Renren Jin Yufei Huang Chuang Liu Weilong Dong Zishan Guo Xinwei Wu Yan Liu Deyi Xiong LM&MA 29 179 0 26 Sep 2023
Security and Privacy on Generative Data in AIGC: A Survey Tao Wang Yushu Zhang Shuren Qi Ruoyu Zhao Zhihua Xia Jian Weng 64 44 0 18 Sep 2023
Bias and Fairness in Chatbots: An Overview Jintang Xue Yun Cheng Wang Chengwei Wei Xiaofeng Liu Jonghye Woo C.-C. Jay Kuo 41 29 0 16 Sep 2023
In-Contextual Gender Bias Suppression for Large Language Models Daisuke Oba Masahiro Kaneko Danushka Bollegala 31 8 0 13 Sep 2023
Down the Toxicity Rabbit Hole: A Novel Framework to Bias Audit Large Language Models Arka Dutta Adel Khorramrouz Sujan Dutta Ashiqur R. KhudaBukhsh 22 0 0 08 Sep 2023
TIDE: Textual Identity Detection for Evaluating and Augmenting Classification and Language Models Emmanuel Klu Sameer Sethi 36 0 0 07 Sep 2023
Loquacity and Visible Emotion: ChatGPT as a Policy Advisor Claudia Biancotti C. Camassa 32 2 0 07 Sep 2023
Bias and Fairness in Large Language Models: A Survey Isabel O. Gallegos Ryan A. Rossi Joe Barrow Md Mehrab Tanjim Sungchul Kim Franck Dernoncourt Tong Yu Ruiyi Zhang Nesreen Ahmed AILaw 45 498 0 02 Sep 2023
Gender bias and stereotypes in Large Language Models Hadas Kotek Rikker Dockum David Q. Sun 44 207 0 28 Aug 2023
AI in the Gray: Exploring Moderation Policies in Dialogic Large Language Models vs. Human Answers in Controversial Topics V. Ghafouri Vibhor Agarwal Yong Zhang Nishanth R. Sastry Jose Such Guillermo Suarez-Tangil AI4MH 31 21 0 28 Aug 2023
A Survey on Fairness in Large Language Models Yingji Li Mengnan Du Rui Song Xin Wang Ying Wang ALM 57 60 0 20 Aug 2023
Robustness Over Time: Understanding Adversarial Examples' Effectiveness on Longitudinal Versions of Large Language Models Yugeng Liu Tianshuo Cong Zhengyu Zhao Michael Backes Yun Shen Yang Zhang AAML 41 6 0 15 Aug 2023
Position: Key Claims in LLM Research Have a Long Tail of Footnotes Anna Rogers A. Luccioni 60 19 0 14 Aug 2023
TorchQL: A Programming Framework for Integrity Constraints in Machine Learning Aaditya Naik Adam Stein Yinjun Wu Mayur Naik Eric Wong 37 3 0 13 Aug 2023
Unmasking Nationality Bias: A Study of Human Perception of Nationalities in AI-Generated Articles Pranav Narayanan Venkit Sanjana Gautam Ruchi Panchanadikar Tingting Huang Shomir Wilson 22 19 0 08 Aug 2023
The Unequal Opportunities of Large Language Models: Revealing Demographic Bias through Job Recommendations A. Salinas Parth Vipul Shah Yuzhong Huang Robert McCormack Fred Morstatter 39 34 0 03 Aug 2023
Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data Xuhai Xu Bingsheng Yao Yu Dong Saadia Gabriel Hongfeng Yu James A. Hendler Marzyeh Ghassemi A. Dey Dakuo Wang LM&MA CLL AI4MH 53 64 0 26 Jul 2023
Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid Essay in Education Zijie Zeng Lele Sha Yuheng Li Kaixun Yang D. Gašević Guanliang Chen DeLMO 32 13 0 23 Jul 2023
Automated Ableism: An Exploration of Explicit Disability Biases in Sentiment and Toxicity Analysis Models Pranav Narayanan Venkit Mukund Srinath Shomir Wilson 38 17 0 18 Jul 2023
Look Before You Leap: An Exploratory Study of Uncertainty Measurement for Large Language Models Yuheng Huang Jiayang Song Zhijie Wang Shengming Zhao Huaming Chen Felix Juefei-Xu Lei Ma 33 34 0 16 Jul 2023
Mitigating Bias in Conversations: A Hate Speech Classifier and Debiaser with Prompts Shaina Raza Chen Ding D. Pandya FaML 24 2 0 14 Jul 2023
What Should Data Science Education Do with Large Language Models? Xinming Tu James Zou Weijie J. Su Linjun Zhang AI4Ed 47 32 0 06 Jul 2023
Power-up! What Can Generative Models Do for Human Computation Workflows? Garrett Allen Gaole He U. Gadiraju 51 3 0 05 Jul 2023
Equal Confusion Fairness: Measuring Group-Based Disparities in Automated Decision Systems Furkan Gursoy I. Kakadiaris 33 4 0 02 Jul 2023
Personality Traits in Large Language Models Gregory Serapio-García Mustafa Safdari Clément Crepy Luning Sun Stephen Fitz P. Romero Marwa Abdulhai Aleksandra Faust Maja J. Matarić LM&MA LLMAG 60 119 0 01 Jul 2023
Towards Measuring the Representation of Subjective Global Opinions in Language Models Esin Durmus Karina Nyugen Thomas I. Liao Nicholas Schiefer Amanda Askell ... Alex Tamkin Janel Thamkul Jared Kaplan Jack Clark Deep Ganguli 46 213 0 28 Jun 2023
Apolitical Intelligence? Auditing Delphi's responses on controversial political issues in the US J. H. Rystrøm 24 0 0 22 Jun 2023
Mass-Producing Failures of Multimodal Systems with Language Models Shengbang Tong Erik Jones Jacob Steinhardt 49 34 0 21 Jun 2023
Opportunities and Risks of LLMs for Scalable Deliberation with Polis Christopher T. Small Ivan Vendrov Esin Durmus Hadjar Homaei Elizabeth Barry Julien Cornebise Ted Suzman Deep Ganguli Colin Megill 35 27 0 20 Jun 2023
Opportunities and Challenges for ChatGPT and Large Language Models in Biomedicine and Health Shubo Tian Qiao Jin Lana Yeganova Po-Ting Lai Qingqing Zhu ... Donald C. Comeau R. Islamaj Aadit Kapoor Xin Gao Zhiyong Lu LM&MA MedIm AI4MH 117 212 0 15 Jun 2023
Sociodemographic Bias in Language Models: A Survey and Forward Path Vipul Gupta Pranav Narayanan Venkit Shomir Wilson R. Passonneau 50 22 0 13 Jun 2023
Questioning the Survey Responses of Large Language Models Ricardo Dominguez-Olmedo Moritz Hardt Celestine Mendler-Dünner 36 32 0 13 Jun 2023
Adding guardrails to advanced chatbots Yanchen Wang Lisa Singh AI4MH 23 7 0 13 Jun 2023
Bias Against 93 Stigmatized Groups in Masked Language Models and Downstream Sentiment Classification Tasks Katelyn Mei Sonia Fereidooni Aylin Caliskan 30 45 0 08 Jun 2023
Taught by the Internet, Exploring Bias in OpenAIs GPT3 Ali Ayaz Aditya Nawalgaria Ruilian Yin 23 0 0 04 Jun 2023
Exposing Bias in Online Communities through Large-Scale Language Models Celine Wald Lukas Pfahler 21 6 0 04 Jun 2023
AI Transparency in the Age of LLMs: A Human-Centered Research Roadmap Q. V. Liao J. Vaughan 69 159 0 02 Jun 2023
Knowledge of cultural moral norms in large language models Aida Ramezani Yang Xu ELM AILaw 43 46 0 02 Jun 2023
Challenges and Remedies to Privacy and Security in AIGC: Exploring the Potential of Privacy Computing, Blockchain, and Beyond Chuan Chen Zhenpeng Wu Yan-Hao Lai Wen-chao Ou Tianchi Liao Zibin Zheng 40 33 0 01 Jun 2023
Seeing Seeds Beyond Weeds: Green Teaming Generative AI for Beneficial Uses Logan Stapleton Jordan Taylor Sarah E Fox Tongshuang Wu Haiyi Zhu 38 13 0 30 May 2023
In-Context Impersonation Reveals Large Language Models' Strengths and Biases Leonard Salewski Stephan Alaniz Isabel Rio-Torto Eric Schulz Zeynep Akata 44 151 0 24 May 2023
Having Beer after Prayer? Measuring Cultural Bias in Large Language Models Tarek Naous Michael Joseph Ryan Alan Ritter Wei Xu 39 86 0 23 May 2023
Cognitive network science reveals bias in GPT-3, ChatGPT, and GPT-4 mirroring math anxiety in high-school students Katherine Abramski Salvatore Citraro Luigi Lombardi Giulio Rossetti Massimo Stella 23 5 0 22 May 2023