v1v2 (latest)

Universal and Transferable Adversarial Attacks on Aligned Language Models

27 July 2023

J. Zico Kolter

ArXiv (abs)PDF HTML Github (3937★)

Papers citing "Universal and Transferable Adversarial Attacks on Aligned Language Models"

50 / 1,101 papers shown

Title
Large Language Models are Vulnerable to Bait-and-Switch Attacks for Generating Harmful Content Federico Bianchi James Zou 74 5 0 21 Feb 2024
Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs Xiaoxia Li Siyuan Liang Jiyi Zhang Hansheng Fang Aishan Liu Ee-Chien Chang 153 28 0 21 Feb 2024
Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning Zhaorui Yang Tianyu Pang Hao Feng Han Wang Wei Chen Minfeng Zhu Qian Liu ALM 92 50 0 21 Feb 2024
A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models Zihao Xu Yi Liu Gelei Deng Yuekang Li S. Picek PILM AAML 104 44 0 21 Feb 2024
Learning to Poison Large Language Models for Downstream Manipulation Yao Qiang Xiangyu Zhou Saleh Zare Zade Mohammad Amin Roshani Prashant Khanduri Douglas Zytko Dongxiao Zhu AAML SILM 121 21 0 21 Feb 2024
The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative Zhen Tan Chengshuai Zhao Raha Moraffah Yifan Li Yu Kong Tianlong Chen Huan Liu 94 17 0 20 Feb 2024
Is the System Message Really Important to Jailbreaks in Large Language Models? Xiaotian Zou Yongkang Chen Ke Li 81 14 0 20 Feb 2024
TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification Martin Gubri Dennis Ulmer Hwaran Lee Sangdoo Yun Seong Joon Oh SILM 482 6 1 20 Feb 2024
Defending Jailbreak Prompts via In-Context Adversarial Game Yujun Zhou Yufei Han Haomin Zhuang Kehan Guo Zhenwen Liang Hongyan Bao Xiangliang Zhang LLMAG AAML 115 15 0 20 Feb 2024
Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! Zhanhui Zhou Jie Liu Zhichen Dong Jiaheng Liu Chao Yang Wanli Ouyang Yu Qiao 96 22 0 19 Feb 2024
Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models Christian Schlarmann Naman D. Singh Francesco Croce Matthias Hein VLM AAML 102 50 0 19 Feb 2024
Query-Based Adversarial Prompt Generation Jonathan Hayase Ema Borevkovic Nicholas Carlini Florian Tramèr Milad Nasr AAML SILM 99 32 0 19 Feb 2024
A Chinese Dataset for Evaluating the Safeguards in Large Language Models Yuxia Wang Zenan Zhai Haonan Li Xudong Han Lizhi Lin Zhenxuan Zhang Jingru Zhao Preslav Nakov Timothy Baldwin 93 11 0 19 Feb 2024
Your Large Language Model is Secretly a Fairness Proponent and You Should Prompt it Like One Tianlin Li Xiaoyu Zhang Chao Du Tianyu Pang Qian Liu Qing Guo Chao Shen Yang Liu ALM 76 11 0 19 Feb 2024
SPML: A DSL for Defending Language Models Against Prompt Attacks Reshabh K Sharma Vinayak Gupta Dan Grossman AAML 121 22 0 19 Feb 2024
ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs Fengqing Jiang Zhangchen Xu Luyao Niu Zhen Xiang Bhaskar Ramasubramanian Bo Li Radha Poovendran 148 109 0 19 Feb 2024
Language Models are Homer Simpson! Safety Re-Alignment of Fine-tuned Language Models through Task Arithmetic Rishabh Bhardwaj Do Duc Anh Soujanya Poria MoMe 110 48 0 19 Feb 2024
How Susceptible are Large Language Models to Ideological Manipulation? Kai Chen Zihao He Jun Yan Taiwei Shi Kristina Lerman 129 14 0 18 Feb 2024
Recovering the Pre-Fine-Tuning Weights of Generative Models Eliahu Horwitz Jonathan Kahana Yedid Hoshen 81 12 0 15 Feb 2024
A StrongREJECT for Empty Jailbreaks Alexandra Souly Qingyuan Lu Dillon Bowen Tu Trinh Elvis Hsieh ... Pieter Abbeel Justin Svegliato Scott Emmons Olivia Watkins Sam Toyer 113 98 0 15 Feb 2024
A Trembling House of Cards? Mapping Adversarial Attacks against Language Agents Lingbo Mo Zeyi Liao Boyuan Zheng Yu-Chuan Su Chaowei Xiao Huan Sun AAML LLMAG 110 15 0 15 Feb 2024
PAL: Proxy-Guided Black-Box Attack on Large Language Models Chawin Sitawarin Norman Mu David Wagner Alexandre Araujo ELM 81 35 0 15 Feb 2024
Stability and Multigroup Fairness in Ranking with Uncertain Predictions Siddartha Devic Aleksandra Korolova David Kempe Vatsal Sharan 104 6 0 14 Feb 2024
Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey Zhichen Dong Zhanhui Zhou Chao Yang Jing Shao Yu Qiao ELM 132 68 0 14 Feb 2024
Instruction Backdoor Attacks Against Customized LLMs Rui Zhang Hongwei Li Rui Wen Wenbo Jiang Yuan Zhang Michael Backes Yun Shen Yang Zhang AAML SILM 106 32 0 14 Feb 2024
Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks Yixin Cheng Markos Georgopoulos Volkan Cevher Grigorios G. Chrysos AAML 71 15 0 14 Feb 2024
Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues Zhiyuan Chang Mingyang Li Yi Liu Junjie Wang Qing Wang Yang Liu 175 43 0 14 Feb 2024
SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding Zhangchen Xu Fengqing Jiang Luyao Niu Jinyuan Jia Bill Yuchen Lin Radha Poovendran AAML 192 111 0 14 Feb 2024
How Secure Are Large Language Models (LLMs) for Navigation in Urban Environments? Congcong Wen Jiazhao Liang Shuaihang Yuan Hao Huang Geeta Chandra Raju Bethala Yu-Shen Liu Mengyu Wang Anthony Tzes Yi Fang AAML 95 6 0 14 Feb 2024
Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space Leo Schwinn David Dobre Sophie Xhonneux Gauthier Gidel Stephan Gunnemann AAML 157 49 0 14 Feb 2024
Attacking Large Language Models with Projected Gradient Descent Simon Geisler Tom Wollschlager M. H. I. Abdalla Johannes Gasteiger Stephan Günnemann AAML SILM 135 62 0 14 Feb 2024
Rethinking Machine Unlearning for Large Language Models Sijia Liu Yuanshun Yao Jinghan Jia Stephen Casper Nathalie Baracaldo ... Hang Li Kush R. Varshney Mohit Bansal Sanmi Koyejo Yang Liu AILaw MU 188 120 0 13 Feb 2024
Measuring and Controlling Instruction (In)Stability in Language Model Dialogs Kenneth Li Tianle Liu Naomi Bashkansky David Bau Fernanda Viégas Hanspeter Pfister Martin Wattenberg 96 12 0 13 Feb 2024
COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability Xing-ming Guo Fangxu Yu Huan Zhang Lianhui Qin Bin Hu AAML 180 92 0 13 Feb 2024
Test-Time Backdoor Attacks on Multimodal Large Language Models Dong Lu Tianyu Pang Chao Du Qian Liu Xianjun Yang Min Lin AAML 165 26 0 13 Feb 2024
Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast Xiangming Gu Xiaosen Zheng Tianyu Pang Chao Du Qian Liu Ye Wang Jing Jiang Min Lin LLMAG LM&Ro 52 63 0 13 Feb 2024
Intriguing Differences Between Zero-Shot and Systematic Evaluations of Vision-Language Transformer Models Shaeke Salman M. Shams Xiuwen Liu Lingjiong Zhu VLM 55 2 0 13 Feb 2024
Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning Gelei Deng Yi Liu Kailong Wang Yuekang Li Tianwei Zhang Yang Liu 79 48 0 13 Feb 2024
Refined Direct Preference Optimization with Synthetic Data for Behavioral Alignment of LLMs Víctor Gallego SyDa 55 7 0 12 Feb 2024
PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented Generation of Large Language Models Wei Zou Runpeng Geng Binghui Wang Jinyuan Jia SILM 109 45 1 12 Feb 2024
Discovering Universal Semantic Triggers for Text-to-Image Synthesis Shengfang Zhai Weilong Wang Jiajun Li Yinpeng Dong Hang Su Qingni Shen EGVM 64 3 0 12 Feb 2024
Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models Zhibo Hu Chen Wang Yanfeng Shu Helen Paik Paik Liming Zhu SILM RALM 77 10 0 11 Feb 2024
OpenFedLLM: Training Large Language Models on Decentralized Private Data via Federated Learning Rui Ye Wenhao Wang Jingyi Chai Dihan Li Zexi Li Yinda Xu Yaxin Du Yanfeng Wang Siheng Chen ALM FedML AIFin 96 98 0 10 Feb 2024
Whispers in the Machine: Confidentiality in LLM-integrated Systems Jonathan Evertz Merlin Chlosta Lea Schonherr Thorsten Eisenhofer 119 21 0 10 Feb 2024
Maximizing NFT Incentives: References Make You Rich Guangsheng Yu Qin Wang Caijun Sun L. Nguyen H.M.N. Dilum Bandara Shiping Chen 112 3 0 09 Feb 2024
StruQ: Defending Against Prompt Injection with Structured Queries Sizhe Chen Julien Piet Chawin Sitawarin David Wagner SILM AAML 98 89 0 09 Feb 2024
Fight Back Against Jailbreaking via Prompt Adversarial Tuning Yichuan Mo Yuji Wang Zeming Wei Yisen Wang AAML SILM 96 32 0 09 Feb 2024
Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation Xianghe Pang Shuo Tang Rui Ye Yuxin Xiong Bolun Zhang Yanfeng Wang Siheng Chen 188 36 0 08 Feb 2024
Rapid Optimization for Jailbreaking LLMs via Subconscious Exploitation and Echopraxia Guangyu Shen Shuyang Cheng Kai-xian Zhang Guanhong Tao Shengwei An Lu Yan Zhuo Zhang Shiqing Ma Xiangyu Zhang 78 15 0 08 Feb 2024
Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications Boyi Wei Kaixuan Huang Yangsibo Huang Tinghao Xie Xiangyu Qi Mengzhou Xia Prateek Mittal Mengdi Wang Peter Henderson AAML 151 118 0 07 Feb 2024