Emulated Disalignment: Safety Alignment for Large Language Models May
Backfire!

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

19 February 2024

Jiaheng Liu

Wanli Ouyang

Yu Qiao

Papers citing "Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!"

11 / 11 papers shown

Title
JULI: Jailbreak Large Language Models by Self-Introspection Jesson Wang Zhanhao Hu David Wagner 72 0 0 17 May 2025
Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation Xin Yi Shunfan Zhengc Linlin Wanga Xiaoling Wang Liang He Liang He AAML 367 0 0 24 Apr 2025
Beyond Surface-Level Patterns: An Essence-Driven Defense Framework Against Jailbreak Attacks in LLMs Shiyu Xiang Ansen Zhang Yanfei Cao Yang Fan Ronghao Chen AAML 88 1 0 26 Feb 2025
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations Hakan Inan Kartikeya Upasani Jianfeng Chi Rashi Rungta Krithika Iyer ... Michael Tontchev Qing Hu Brian Fuller Davide Testuggine Madian Khabsa AI4MH 139 434 0 07 Dec 2023
An Emulator for Fine-Tuning Large Language Models using Small Language Models Eric Mitchell Rafael Rafailov Archit Sharma Chelsea Finn Christopher D. Manning ALM 69 55 0 19 Oct 2023
Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou Zifan Wang Nicholas Carlini Milad Nasr J. Zico Kolter Matt Fredrikson 282 1,436 0 27 Jul 2023
Contrastive Decoding: Open-ended Text Generation as Optimization Xiang Lisa Li Ari Holtzman Daniel Fried Percy Liang Jason Eisner Tatsunori Hashimoto Luke Zettlemoyer M. Lewis 89 357 0 27 Oct 2022
A Holistic Approach to Undesired Content Detection in the Real World Todor Markov Chong Zhang Sandhini Agarwal Tyna Eloundou Teddy Lee Steven Adler Angela Jiang L. Weng 92 229 0 05 Aug 2022
"I'm sorry to hear that": Finding New Biases in Language Models with a Holistic Descriptor Dataset Eric Michael Smith Melissa Hall Melanie Kambadur Eleonora Presani Adina Williams 96 141 0 18 May 2022
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models Samuel Gehman Suchin Gururangan Maarten Sap Yejin Choi Noah A. Smith 133 1,191 0 24 Sep 2020
Composable Deep Reinforcement Learning for Robotic Manipulation Tuomas Haarnoja Vitchyr H. Pong Aurick Zhou Murtaza Dalal Pieter Abbeel Sergey Levine 111 233 0 19 Mar 2018