Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models

12 August 2024

Papers citing "Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models"

35 / 35 papers shown

Title
Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models Guy Kaplan Michael Toker Yuval Reif Yonatan Belinkov Roy Schwartz DiffM 76 0 0 01 Apr 2025
Scaling Down Semantic Leakage: Investigating Associative Bias in Smaller Language Models Veronika Smilga 73 0 0 11 Jan 2025
Implicit Personalization in Language Models: A Systematic Study Zhijing Jin Nils Heil Jiarui Liu Shehzaad Dhuliawala Yahang Qi Bernhard Schölkopf Rada Mihalcea Mrinmaya Sachan 58 8 0 23 May 2024
Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting Melanie Sclar Yejin Choi Yulia Tsvetkov Alane Suhr 77 322 0 17 Oct 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 249 11,636 0 18 Jul 2023
Linguistic Binding in Diffusion Models: Enhancing Attribute Correspondence through Attention Map Alignment Royi Rassin Eran Hirsch Daniel Glickman Shauli Ravfogel Yoav Goldberg Gal Chechik DiffM 59 106 0 15 Jun 2023
Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models Myra Cheng Esin Durmus Dan Jurafsky 45 189 0 29 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 895 13,788 0 15 Mar 2023
Thinking Fast and Slow in Large Language Models Thilo Hagendorff Sarah Fabi Michal Kosinski LLMAG LRM 24 146 0 10 Dec 2022
Demystifying Prompts in Language Models via Perplexity Estimation Hila Gonen Srini Iyer Terra Blevins Noah A. Smith Luke Zettlemoyer LRM 91 205 0 08 Dec 2022
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model BigScience Workshop : Teven Le Scao Angela Fan Christopher Akiki ... Zhongli Xie Zifan Ye M. Bras Younes Belkada Thomas Wolf VLM 317 2,364 0 09 Nov 2022
Creative Writing with an AI-Powered Writing Assistant: Perspectives from Professional Writers Daphne Ippolito Ann Yuan Andy Coenen Sehmon Burnam 62 95 0 09 Nov 2022
DALL-E 2 Fails to Reliably Capture Common Syntactic Processes Evelina Leivada Elliot Murphy G. Marcus 151 38 0 23 Oct 2022
DALLE-2 is Seeing Double: Flaws in Word-to-Concept Mapping in Text2Image Models Royi Rassin Shauli Ravfogel Yoav Goldberg 40 60 0 19 Oct 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 312 6,768 0 13 Apr 2022
Entropy-based Attention Regularization Frees Unintended Bias Mitigation from Lists Giuseppe Attanasio Debora Nozza Dirk Hovy Elena Baralis 38 54 0 17 Mar 2022
Capturing Failures of Large Language Models via Human Cognitive Biases Erik Jones Jacob Steinhardt 48 93 0 24 Feb 2022
Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP Timo Schick Sahana Udupa Hinrich Schütze 287 380 0 28 Feb 2021
Bias Out-of-the-Box: An Empirical Analysis of Intersectional Occupational Biases in Popular Generative Language Models Hannah Rose Kirk Yennie Jun Haider Iqbal Elias Benussi Filippo Volpin F. Dreyer Aleksandar Shtedritski Yuki M. Asano 38 183 0 08 Feb 2021
Exploring BERT's Sensitivity to Lexical Cues using Tests from Semantic Priming Kanishka Misra Allyson Ettinger Julia Taylor Rayz 39 56 0 06 Oct 2020
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models Samuel Gehman Suchin Gururangan Maarten Sap Yejin Choi Noah A. Smith 116 1,168 0 24 Sep 2020
Automatically Identifying Gender Issues in Machine Translation using Perturbations Hila Gonen Kellie Webster 39 39 0 29 Apr 2020
StereoSet: Measuring stereotypical bias in pretrained language models Moin Nadeem Anna Bethke Siva Reddy 71 979 0 20 Apr 2020
It's All in the Name: Mitigating Gender Bias with Name-Based Counterfactual Data Substitution Rowan Hall Maudslay Hila Gonen Ryan Cotterell Simone Teufel 44 168 0 02 Sep 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 880 11,979 0 27 Aug 2019
Universal Adversarial Triggers for Attacking and Analyzing NLP Eric Wallace Shi Feng Nikhil Kandpal Matt Gardner Sameer Singh AAML SILM 102 856 0 20 Aug 2019
Evaluating Gender Bias in Machine Translation Gabriel Stanovsky Noah A. Smith Luke Zettlemoyer 68 397 0 03 Jun 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 245 5,668 0 21 Apr 2019
Lipstick on a Pig: Debiasing Methods Cover up Systematic Gender Biases in Word Embeddings But do not Remove Them Hila Gonen Yoav Goldberg 86 571 0 09 Mar 2019
Bias in Bios: A Case Study of Semantic Representation Bias in a High-Stakes Setting Maria De-Arteaga Alexey Romanov Hanna M. Wallach J. Chayes C. Borgs Alexandra Chouldechova S. Geyik K. Kenthapadi Adam Tauman Kalai 130 449 0 27 Jan 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.3K 93,936 0 11 Oct 2018
Examining Gender and Race Bias in Two Hundred Sentiment Analysis Systems S. Kiritchenko Saif M. Mohammad FaML 69 435 0 11 May 2018
Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods Jieyu Zhao Tianlu Wang Mark Yatskar Vicente Ordonez Kai-Wei Chang 90 919 0 18 Apr 2018
Semantics derived automatically from language corpora contain human-like biases Aylin Caliskan J. Bryson Arvind Narayanan 162 2,650 0 25 Aug 2016
Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings Tolga Bolukbasi Kai-Wei Chang James Zou Venkatesh Saligrama Adam Kalai CVBM FaML 69 3,115 0 21 Jul 2016