Wait, but Tylenol is Acetaminophen... Investigating and Improving
Language Models' Ability to Resist Requests for Misinformation

Wait, but Tylenol is Acetaminophen... Investigating and Improving Language Models' Ability to Resist Requests for Misinformation

30 September 2024

Thomas Hartvigsen

Lizhou Fan

Hugo J. W. L. Aerts

Danielle S. Bitterman

Papers citing "Wait, but Tylenol is Acetaminophen... Investigating and Improving Language Models' Ability to Resist Requests for Misinformation"

11 / 11 papers shown

Title
Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators Yann Dubois Balázs Galambosi Percy Liang Tatsunori Hashimoto ALM 76 359 0 06 Apr 2024
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research Luca Soldaini Rodney Michael Kinney Akshita Bhagia Dustin Schwenk David Atkinson ... Hanna Hajishirzi Iz Beltagy Dirk Groeneveld Jesse Dodge Kyle Lo 63 265 0 31 Jan 2024
Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens Jiacheng Liu Sewon Min Luke Zettlemoyer Yejin Choi Hannaneh Hajishirzi 86 54 0 30 Jan 2024
How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs Yi Zeng Hongpeng Lin Jingwen Zhang Diyi Yang Ruoxi Jia Weiyan Shi 62 284 0 12 Jan 2024
Towards Understanding Sycophancy in Language Models Mrinank Sharma Meg Tong Tomasz Korbak David Duvenaud Amanda Askell ... Oliver Rausch Nicholas Schiefer Da Yan Miranda Zhang Ethan Perez 262 211 0 20 Oct 2023
Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization Dave Van Veen Cara Van Uden Louis Blankemeier Jean-Benoit Delbrouck Asad Aali ... C. Langlotz Jason Hom S. Gatidis John M. Pauly Akshay S. Chaudhari ELM AI4MH LM&MA 81 303 0 14 Sep 2023
Evaluation of ChatGPT Family of Models for Biomedical Reasoning and Classification Shan Chen Yingya Li Sheng Lu Hoang Van Hugo J. W. L. Aerts G. Savova Danielle S. Bitterman LM&MA AI4MH ELM 41 47 0 05 Apr 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 590 9,009 0 28 Jan 2022
A General Language Assistant as a Laboratory for Alignment Amanda Askell Yuntao Bai Anna Chen Dawn Drain Deep Ganguli ... Tom B. Brown Jack Clark Sam McCandlish C. Olah Jared Kaplan ALM 96 762 0 01 Dec 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 386 2,051 0 31 Dec 2020
BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions Christopher Clark Kenton Lee Ming-Wei Chang Tom Kwiatkowski Michael Collins Kristina Toutanova 179 1,475 0 24 May 2019