v1v2 (latest)

Universal and Transferable Adversarial Attacks on Aligned Language Models

27 July 2023

J. Zico Kolter

ArXiv (abs)PDF HTML Github (3937★)

Papers citing "Universal and Transferable Adversarial Attacks on Aligned Language Models"

50 / 1,101 papers shown

Title
Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks Jiawei Zhao Kejiang Chen Xiaojian Yuan Weiming Zhang AAML 88 3 0 15 Aug 2024
Kov: Transferable and Naturalistic Black-Box LLM Attacks using Markov Decision Processes and Tree Search Robert J. Moss AAML 46 0 0 11 Aug 2024
A Jailbroken GenAI Model Can Cause Substantial Harm: GenAI-powered Applications are Vulnerable to PromptWares Stav Cohen Ron Bitton Ben Nassi SILM 99 5 0 09 Aug 2024
Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles Xiongtao Sun Deyue Zhang Dongdong Yang Quanchen Zou Hui Li AAML 71 21 0 08 Aug 2024
WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models Prannaya Gupta Le Qi Yau Hao Han Low I-Shiang Lee Hugo Maximus Lim ... Jia Hng Koh Dar Win Liew Rishabh Bhardwaj Rajat Bhardwaj Soujanya Poria ELM LM&MA 102 6 0 07 Aug 2024
Prompt and Prejudice Lorenzo Berlincioni Luca Cultrera Federico Becattini Marco Bertini A. Bimbo 73 0 0 07 Aug 2024
EnJa: Ensemble Jailbreak on Large Language Models Jiahao Zhang Zilong Wang Ruofan Wang Xingjun Ma Yu-Gang Jiang AAML 44 2 0 07 Aug 2024
Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models? Mohammad Bahrami Karkevandi Nishant Vishwamitra Peyman Najafirad AAML 87 1 0 05 Aug 2024
SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models Muxi Diao Rumei Li Shiyang Liu Guogang Liao Jingang Wang Xunliang Cai Weiran Xu AAML 105 2 0 05 Aug 2024
Strong and weak alignment of large language models with human values Mehdi Khamassi Marceau Nahon Raja Chatila ALM 71 14 0 05 Aug 2024
Operationalizing Contextual Integrity in Privacy-Conscious Assistants Sahra Ghalebikesabi Eugene Bagdasaryan Ren Yi Itay Yona Ilia Shumailov ... Robert Stanforth Leonard Berrada Pushmeet Kohli Po-Sen Huang Borja Balle 121 13 0 05 Aug 2024
Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models Zi Liang Haibo Hu Qingqing Ye Yaxin Xiao Haoyang Li AAML ELM SILM 146 9 0 05 Aug 2024
Mission Impossible: A Statistical Perspective on Jailbreaking LLMs Jingtong Su Mingyu Lee SangKeun Lee 93 12 0 02 Aug 2024
Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion Honglei Miao Fan Ma Ruijie Quan Kun Zhan Yi Yang AAML 112 3 0 01 Aug 2024
Tamper-Resistant Safeguards for Open-Weight LLMs Rishub Tamirisa Bhrugu Bharathi Long Phan Andy Zhou Alice Gatti ... Andy Zou Dawn Song Bo Li Dan Hendrycks Mantas Mazeika AAML MU 133 63 0 01 Aug 2024
Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? Richard Ren Steven Basart Adam Khoja Alice Gatti Long Phan ... Alexander Pan Gabriel Mukobi Ryan H. Kim Stephen Fitz Dan Hendrycks ELM 77 25 0 31 Jul 2024
Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification Boyang Zhang Yicong Tan Yun Shen Ahmed Salem Michael Backes Savvas Zannettou Yang Zhang LLMAG AAML 108 33 0 30 Jul 2024
Can Editing LLMs Inject Harm? Canyu Chen Baixiang Huang Zekun Li Zhaorun Chen Shiyang Lai ... Xifeng Yan William Wang Philip Torr Dawn Song Kai Shu KELM 148 15 0 29 Jul 2024
Adversarial Robustification via Text-to-Image Diffusion Models Daewon Choi Jongheon Jeong Huiwon Jang Jinwoo Shin DiffM 113 2 0 26 Jul 2024
The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models Zihui Wu Haichang Gao Jianping He Ping Wang 112 10 0 25 Jul 2024
Scaling Trends in Language Model Robustness Nikolhaus Howe Michal Zajac I. R. McKenzie Oskar Hollinsworth Tom Tseng Aaron David Tucker Pierre-Luc Bacon Adam Gleave 178 1 0 25 Jul 2024
Know Your Limits: A Survey of Abstention in Large Language Models Bingbing Wen Jihan Yao Shangbin Feng Chenjun Xu Yulia Tsvetkov Bill Howe Lucy Lu Wang 129 5 0 25 Jul 2024
Course-Correction: Safety Alignment Using Synthetic Preferences Rongwu Xu Yishuo Cai Zhenhong Zhou Renjie Gu Haiqin Weng Yan Liu Tianwei Zhang Wei Xu Han Qiu 76 7 0 23 Jul 2024
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing Blazej Manczak Eliott Zemour Eric Lin Vaikkunth Mugunthan 48 4 0 23 Jul 2024
LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models Shi Lin Rongchang Li Xun Wang Changting Lin Xun Wang Wenpeng Xing Meng Han Meng Han 99 3 0 23 Jul 2024
Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) Apurv Verma Satyapriya Krishna Sebastian Gehrmann Madhavan Seshadri Anu Pradhan Tom Ault Leslie Barrett David Rabinowitz John Doucette Nhathai Phan 129 15 0 20 Jul 2024
Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification Thomas Kwa Drake Thomas Adrià Garriga-Alonso 88 2 0 19 Jul 2024
Prover-Verifier Games improve legibility of LLM outputs Jan Hendrik Kirchner Yining Chen Harri Edwards Jan Leike Nat McAleese Yuri Burda LRM AAML 82 32 0 18 Jul 2024
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases Zhaorun Chen Zhen Xiang Chaowei Xiao Dawn Song Bo Li LLMAG AAML 105 79 0 17 Jul 2024
Continuous Embedding Attacks via Clipped Inputs in Jailbreaking Large Language Models Zihao Xu Yi Liu Gelei Deng Kailong Wang Yuekang Li Ling Shi S. Picek KELM 80 0 0 16 Jul 2024
BadRobot: Jailbreaking Embodied LLMs in the Physical World Hangtao Zhang Chenyu Zhu Xianlong Wang Ziqi Zhou Yichen Wang ... Shengshan Hu Leo Yu Zhang Aishan Liu Peijin Guo Leo Yu Zhang LM&Ro 102 11 0 16 Jul 2024
Does Refusal Training in LLMs Generalize to the Past Tense? Maksym Andriushchenko Nicolas Flammarion 142 36 0 16 Jul 2024
Evaluating AI Evaluation: Perils and Prospects John Burden ELM 101 9 0 12 Jul 2024
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training Youliang Yuan Wenxiang Jiao Wenxuan Wang Jen-tse Huang Jiahao Xu Tian Liang Pinjia He Zhaopeng Tu 115 32 0 12 Jul 2024
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing Huanqian Wang Yang Yue Rui Lu Jingxin Shi Andrew Zhao Shenzhi Wang Shiji Song Gao Huang LM&Ro KELM 141 0 0 11 Jul 2024
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends Daizong Liu Mingyu Yang Xiaoye Qu Pan Zhou Yu Cheng Wei Hu ELM AAML 108 33 0 10 Jul 2024
Malicious Path Manipulations via Exploitation of Representation Vulnerabilities of Vision-Language Navigation Systems Chashi Mahiul Islam Shaeke Salman M. Shams Xiuwen Liu Piyush Kumar AAML 83 4 0 10 Jul 2024
Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture Jiayang Song Yuheng Huang Zhehua Zhou Lei Ma 110 13 0 10 Jul 2024
Grounding and Evaluation for Large Language Models: Practical Challenges and Lessons Learned (Survey) K. Kenthapadi M. Sameki Ankur Taly HILM ELM AILaw 83 15 0 10 Jul 2024
ICLGuard: Controlling In-Context Learning Behavior for Applicability Authorization Wai Man Si Michael Backes Yang Zhang 78 1 0 09 Jul 2024
T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models Yibo Miao Yifan Zhu Yinpeng Dong Lijia Yu Jun Zhu Xiao-Shan Gao EGVM 127 20 0 08 Jul 2024
$R^2$ -Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning Mintong Kang Yue Liu LRM 125 16 0 08 Jul 2024
Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course Cheng-Han Chiang Wei-Chih Chen Chun-Yi Kuan Chienchou Yang Hung-yi Lee ELM AI4Ed 68 8 0 07 Jul 2024
AI Safety in Generative AI Large Language Models: A Survey Jaymari Chua Yun Yvonna Li Shiyi Yang Chen Wang Lina Yao LM&MA 100 19 0 06 Jul 2024
Jailbreak Attacks and Defenses Against Large Language Models: A Survey Sibo Yi Yule Liu Zhen Sun Tianshuo Cong Xinlei He Jiaxing Song Ke Xu Qi Li AAML 120 111 0 05 Jul 2024
Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers Terry Tong Lyne Tchapmi Qin Liu Muhao Chen AAML SILM 89 2 0 04 Jul 2024
Self-Evaluation as a Defense Against Adversarial Attacks on LLMs Hannah Brown Leon Lin Kenji Kawaguchi Michael Shieh AAML 147 8 0 03 Jul 2024
Single Character Perturbations Break LLM Alignment Leon Lin Hannah Brown Kenji Kawaguchi Michael Shieh AAML 429 2 0 03 Jul 2024
Soft Begging: Modular and Efficient Shielding of LLMs against Prompt Injection and Jailbreaking based on Prompt Tuning Simon Ostermann Kevin Baum Christoph Endres Julia Masloh P. Schramowski AAML 100 2 0 03 Jul 2024
SOS! Soft Prompt Attack Against Open-Source Large Language Models Ziqing Yang Michael Backes Yang Zhang Ahmed Salem AAML 73 5 0 03 Jul 2024