v1v2v3 (latest)

Position is Power: System Prompts as a Mechanism of Bias in Large Language Models (LLMs)

27 May 2025

Papers citing "Position is Power: System Prompts as a Mechanism of Bias in Large Language Models (LLMs)"

43 / 43 papers shown

Title
QA-HFL: Quality-Aware Hierarchical Federated Learning for Resource-Constrained Mobile Devices with Heterogeneous Image Quality Sajid Hussain Muhammad Sohail Nauman Ali Khan 9 0 0 04 Jun 2025
Challenging Fairness: A Comprehensive Exploration of Bias in LLM-Based Recommendations Shahnewaz Karim Sakib Anindya Bijoy Das 76 0 0 17 Sep 2024
SysBench: Can Large Language Models Follow System Messages? Yanzhao Qin Tao Zhang Tao Zhang Yanjun Shen Wenjing Luo ... Yujing Qiao Weipeng Chen Guosheng Dong Wentao Zhang Bin Cui ALM 177 12 0 20 Aug 2024
How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies Alina Leidinger Richard Rogers 89 8 0 16 Jul 2024
On LLM Wizards: Identifying Large Language Models' Behaviors for Wizard of Oz Experiments Jingchao Fang Nikos Aréchiga Keiichi Namaoshi N. Bravo Candice L Hogan David A. Shamma 61 4 0 10 Jul 2024
See It from My Perspective: How Language Affects Cultural Bias in Image Understanding Amith Ananthram Elias Stengel-Eskin Carl Vondrick Joey Tianyi Zhou VLM 102 7 0 17 Jun 2024
Participation in the age of foundation models Harini Suresh Emily Tseng Meg Young Mary L. Gray Emma Pierson Karen Levy 87 28 0 29 May 2024
Aligning to Thousands of Preferences via System Message Generalization Seongyun Lee Sue Hyun Park Seungone Kim Minjoon Seo ALM 98 49 0 28 May 2024
Akal Badi ya Bias: An Exploratory Study of Gender Bias in Hindi Language Technology Rishav Hada Safiya Husain Varun Gumma Harshita Diddee Aditya Yadavalli ... Nidhi Kulkarni U. Gadiraju Aditya Vashistha Vivek Seshadri Kalika Bali 84 10 0 10 May 2024
Mixture-of-Instructions: Aligning Large Language Models via Mixture Prompting Bowen Xu Shaoyu Wu Kai Liu Lulu Hu 57 1 0 29 Apr 2024
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions Eric Wallace Kai Y. Xiao R. Leike Lilian Weng Johannes Heidecke Alex Beutel SILM 118 141 0 19 Apr 2024
Do Large Language Models Rank Fairly? An Empirical Study on the Fairness of LLMs as Rankers Yuan Wang Xuyang Wu Hsin-Tai Wu Zhiqiang Tao Yi Fang ALM 41 10 0 04 Apr 2024
RelayAttention for Efficient Large Language Model Serving with Long System Prompts Lei Zhu Xinjiang Wang Wayne Zhang Rynson W. H. Lau 68 8 0 22 Feb 2024
Measuring and Controlling Instruction (In)Stability in Language Model Dialogs Kenneth Li Tianle Liu Naomi Bashkansky David Bau Fernanda Viégas Hanspeter Pfister Martin Wattenberg 94 12 0 13 Feb 2024
Beyond Behaviorist Representational Harms: A Plan for Measurement and Mitigation Jennifer Chien David Danks 92 21 0 25 Jan 2024
Large Language Models Portray Socially Subordinate Groups as More Homogeneous, Consistent with a Bias Observed in Humans Messi H.J. Lee Jacob M. Montgomery Calvin K. Lai 76 29 0 16 Jan 2024
Evaluating and Mitigating Discrimination in Language Model Decisions Alex Tamkin Amanda Askell Liane Lovitt Esin Durmus Nicholas Joseph Shauna Kravec Karina Nguyen Jared Kaplan Deep Ganguli 89 76 0 06 Dec 2023
You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments Bangzhao Shu Lechen Zhang Minje Choi Lavinia Dunagan Lajanugen Logeswaran Moontae Lee Dallas Card David Jurgens 57 39 0 16 Nov 2023
Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs Shashank Gupta Vaishnavi Shrivastava Ameet Deshpande Ashwin Kalyan Peter Clark Ashish Sabharwal Tushar Khot 196 122 0 08 Nov 2023
Towards Understanding Sycophancy in Language Models Mrinank Sharma Meg Tong Tomasz Korbak David Duvenaud Amanda Askell ... Oliver Rausch Nicholas Schiefer Da Yan Miranda Zhang Ethan Perez 351 244 0 20 Oct 2023
Fine-tuning ChatGPT for Automatic Scoring Ehsan Latif Xiaoming Zhai AI4MH 104 103 0 16 Oct 2023
DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models Wei Ping Weixin Chen Hengzhi Pei Chulin Xie Mintong Kang ... Zinan Lin Yuk-Kit Cheng Sanmi Koyejo Basel Alomair Yue Liu 119 430 0 20 Jun 2023
Bias Against 93 Stigmatized Groups in Masked Language Models and Downstream Sentiment Classification Tasks Katelyn Mei Sonia Fereidooni Aylin Caliskan 64 53 0 08 Jun 2023
Understanding accountability in algorithmic supply chains Jennifer Cobbe Michael Veale Jatinder Singh 82 68 0 28 Apr 2023
A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT Ce Zhou Qian Li Chen Li Jun Yu Yixin Liu ... P. Xie Caiming Xiong Jian Pei Philip S. Yu U. Chicago AI4CE 94 529 0 18 Feb 2023
Out of Context: Investigating the Bias and Fairness Concerns of "Artificial Intelligence as a Service" Kornel Lewicki M. S. Lee Jennifer Cobbe Jatinder Singh 72 22 0 02 Feb 2023
Sociotechnical Harms of Algorithmic Systems: Scoping a Taxonomy for Harm Reduction Renee Shelby Shalaleh Rismani Kathryn Henne AJung Moon Negar Rostamzadeh ... N'Mah Yilla-Akbari Jess Gallegos A. Smart Emilio Garcia Gurleen Virk 89 207 0 11 Oct 2022
Dislocated Accountabilities in the AI Supply Chain: Modularity and Developers' Notions of Responsibility D. Widder D. Nafus 81 75 0 20 Sep 2022
Human heuristics for AI-generated language are flawed Maurice Jakesch Jeffrey T. Hancock Mor Naaman DeLMO 63 188 0 15 Jun 2022
Theories of "Gender" in NLP Bias Research Hannah Devinney Jenny Björklund H. Björklund AI4CE 83 76 0 05 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 888 13,207 0 04 Mar 2022
A Framework for Fairness: A Systematic Review of Existing Fair AI Solutions Brianna Richardson J. Gilbert FaML 56 37 0 10 Dec 2021
Understanding and Evaluating Racial Biases in Image Captioning Dora Zhao Angelina Wang Olga Russakovsky 65 138 0 16 Jun 2021
BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation Jwala Dhamala Tony Sun Varun Kumar Satyapriya Krishna Yada Pruksachatkun Kai-Wei Chang Rahul Gupta 92 400 0 27 Jan 2021
DynaSent: A Dynamic Benchmark for Sentiment Analysis Christopher Potts Zhengxuan Wu Atticus Geiger Douwe Kiela 281 80 0 30 Dec 2020
TweetEval: Unified Benchmark and Comparative Evaluation for Tweet Classification Francesco Barbieri Jose Camacho-Collados Leonardo Neves Luis Espinosa-Anke VLM 91 725 0 23 Oct 2020
Language (Technology) is Power: A Critical Survey of "Bias" in NLP Su Lin Blodgett Solon Barocas Hal Daumé Hanna M. Wallach 157 1,257 0 28 May 2020
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 290 649 0 03 Sep 2019
On Measuring Social Biases in Sentence Encoders Chandler May Alex Jinpeng Wang Shikha Bordia Samuel R. Bowman Rachel Rudinger 106 606 0 25 Mar 2019
Fairness in representation: quantifying stereotyping as a representational harm Mohsen Abbasi Sorelle A. Friedler C. Scheidegger Suresh Venkatasubramanian 35 51 0 28 Jan 2019
A Unified Approach to Quantifying Algorithmic Unfairness: Measuring Individual & Group Unfairness via Inequality Indices Till Speicher Hoda Heidari Nina Grgic-Hlaca Krishna P. Gummadi Adish Singla Adrian Weller Muhammad Bilal Zafar FaML 74 265 0 02 Jul 2018
From Parity to Preference-based Notions of Fairness in Classification Muhammad Bilal Zafar Isabel Valera Manuel Gomez Rodriguez Krishna P. Gummadi Adrian Weller FaML 92 208 0 30 Jun 2017
Equality of Opportunity in Supervised Learning Moritz Hardt Eric Price Nathan Srebro FaML 236 4,337 0 07 Oct 2016