v1v2 (latest)

How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies

16 July 2024

Papers citing "How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies"

29 / 29 papers shown

Title
SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety Paul Röttger Fabio Pernisi Bertie Vidgen Dirk Hovy ELM KELM 154 39 0 08 Apr 2024
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference Wei-Lin Chiang Lianmin Zheng Ying Sheng Anastasios Nikolas Angelopoulos Tianle Li ... Hao Zhang Banghua Zhu Michael I. Jordan Joseph E. Gonzalez Ion Stoica OSLM 154 596 0 07 Mar 2024
Social Bias Probing: Fairness Benchmarking for Language Models Marta Marchiori Manerba Karolina Stañczak Riccardo Guidotti Isabelle Augenstein 68 19 0 15 Nov 2023
SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in Large Language Models Bertie Vidgen Nino Scherrer Hannah Rose Kirk Rebecca Qian Anand Kannappan Scott A. Hale Paul Röttger ALM ELM 99 29 0 14 Nov 2023
The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values Hannah Rose Kirk Andrew M. Bean Bertie Vidgen Paul Röttger Scott A. Hale ALM 87 50 0 11 Oct 2023
Qwen Technical Report Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang ... Zhenru Zhang Chang Zhou Jingren Zhou Xiaohuan Zhou Tianhang Zhu OSLM 264 1,895 0 28 Sep 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 389 4,139 0 29 May 2023
"I'm fully who I am": Towards Centering Transgender and Non-Binary Voices to Measure Biases in Open Language Generation Anaelia Ovalle Palash Goyal Jwala Dhamala Zachary Jaggers Kai-Wei Chang Aram Galstyan R. Zemel Rahul Gupta 66 68 0 17 May 2023
A Holistic Approach to Undesired Content Detection in the Real World Todor Markov Chong Zhang Sandhini Agarwal Tyna Eloundou Teddy Lee Steven Adler Angela Jiang L. Weng 107 235 0 05 Aug 2022
"I'm sorry to hear that": Finding New Biases in Language Models with a Holistic Descriptor Dataset Eric Michael Smith Melissa Hall Melanie Kambadur Eleonora Presani Adina Williams 108 143 0 18 May 2022
A General Language Assistant as a Laboratory for Alignment Amanda Askell Yuntao Bai Anna Chen Dawn Drain Deep Ganguli ... Tom B. Brown Jack Clark Sam McCandlish C. Olah Jared Kaplan ALM 118 789 0 01 Dec 2021
Multitask Prompted Training Enables Zero-Shot Task Generalization Victor Sanh Albert Webson Colin Raffel Stephen H. Bach Lintang Sutawika ... T. Bers Stella Biderman Leo Gao Thomas Wolf Alexander M. Rush LRM 348 1,708 0 15 Oct 2021
Stepmothers are mean and academics are pretentious: What do pretrained language models learn about you? Rochelle Choenni Ekaterina Shutova R. Rooij 95 29 0 21 Sep 2021
Harms of Gender Exclusivity and Challenges in Non-Binary Representation in Language Technologies Sunipa Dev Masoud Monajatipoor Anaelia Ovalle Arjun Subramonian J. M. Phillips Kai-Wei Chang 116 170 0 27 Aug 2021
Towards Understanding and Mitigating Social Biases in Language Models Paul Pu Liang Chiyu Wu Louis-Philippe Morency Ruslan Salakhutdinov 97 393 0 24 Jun 2021
A Survey of Race, Racism, and Anti-Racism in NLP Anjalie Field Su Lin Blodgett Zeerak Talat Yulia Tsvetkov 81 124 0 21 Jun 2021
HateBERT: Retraining BERT for Abusive Language Detection in English Tommaso Caselli Valerio Basile Jelena Mitrović Michael Granitzer 80 373 0 23 Oct 2020
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models Samuel Gehman Suchin Gururangan Maarten Sap Yejin Choi Noah A. Smith 163 1,214 0 24 Sep 2020
Detecting Emergent Intersectional Biases: Contextualized Word Embeddings Contain a Distribution of Human-like Biases W. Guo Aylin Caliskan 39 243 0 06 Jun 2020
DeBERTa: Decoding-enhanced BERT with Disentangled Attention Pengcheng He Xiaodong Liu Jianfeng Gao Weizhu Chen AAML 163 2,750 0 05 Jun 2020
Language (Technology) is Power: A Critical Survey of "Bias" in NLP Su Lin Blodgett Solon Barocas Hal Daumé Hanna M. Wallach 157 1,248 0 28 May 2020
Social Biases in NLP Models as Barriers for Persons with Disabilities Ben Hutchinson Vinodkumar Prabhakaran Emily L. Denton Kellie Webster Yu Zhong Stephen Denuyl 73 313 0 02 May 2020
Assessing Social and Intersectional Biases in Contextualized Word Representations Y. Tan Elisa Celis FaML 97 228 0 04 Nov 2019
Adversarial NLI: A New Benchmark for Natural Language Understanding Yixin Nie Adina Williams Emily Dinan Joey Tianyi Zhou Jason Weston Douwe Kiela 127 1,010 0 31 Oct 2019
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 285 646 0 03 Sep 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 677 24,541 0 26 Jul 2019
Identifying and Reducing Gender Bias in Word-Level Language Models Shikha Bordia Samuel R. Bowman FaML 118 327 0 05 Apr 2019
FEVER: a large-scale dataset for Fact Extraction and VERification James Thorne Andreas Vlachos Christos Christodoulopoulos Arpit Mittal HILM 156 1,665 0 14 Mar 2018
A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference Adina Williams Nikita Nangia Samuel R. Bowman 524 4,494 0 18 Apr 2017