v1v2 (latest)

Universal and Transferable Adversarial Attacks on Aligned Language Models

27 July 2023

J. Zico Kolter

ArXiv (abs)PDF HTML Github (3937★)

Papers citing "Universal and Transferable Adversarial Attacks on Aligned Language Models"

50 / 1,101 papers shown

Title
From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment Kyubyung Chae Hyunbin Jin Taesup Kim 27 0 0 07 Jun 2025
Joint-GCG: Unified Gradient-Based Poisoning Attacks on Retrieval-Augmented Generation Systems Haowei Wang Rupeng Zhang Junjie Wang Mingyang Li Yuekai Huang Dandan Wang Qing Wang SILM AAML 51 0 0 06 Jun 2025
Benchmarking Misuse Mitigation Against Covert Adversaries Davis Brown Mahdi Sabbaghi Luze Sun Alexander Robey George Pappas Eric Wong Hamed Hassani 23 0 0 06 Jun 2025
Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction Zesheng Ye C. Cai Ruijiang Dong Jianzhong Qi Lei Feng Pin-Yu Chen Feng Liu 210 0 0 05 Jun 2025
SECNEURON: Reliable and Flexible Abuse Control in Local LLMs via Hybrid Neuron Encryption Zhiqiang Wang Haohua Du Junyang Wang Haifeng Sun Kaiwen Guo Haikuo Yu Chao Liu Xiang-Yang Li AAML 135 0 0 05 Jun 2025
TracLLM: A Generic Framework for Attributing Long Context LLMs Yanting Wang Wei Zou Runpeng Geng Jinyuan Jia LLMAG 126 0 0 04 Jun 2025
Through the Stealth Lens: Rethinking Attacks and Defenses in RAG Sarthak Choudhary Nils Palumbo Ashish Hooda Krishnamurthy Dvijotham Somesh Jha 45 0 0 04 Jun 2025
Misalignment or misuse? The AGI alignment tradeoff Max Hellrigel-Holderbaum Leonard Dung 73 0 0 04 Jun 2025
ATAG: AI-Agent Application Threat Assessment with Attack Graphs Parth Atulbhai Gandhi Akansha Shukla David Tayouri Beni Ifland Yuval Elovici Rami Puzis A. Shabtai LLMAG 61 0 0 03 Jun 2025
BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage Kalyan Nakka Nitesh Saxena 49 0 0 03 Jun 2025
A Trustworthiness-based Metaphysics of Artificial Intelligence Systems Andrea Ferrario 36 0 0 03 Jun 2025
Urban Visibility Hotspots: Quantifying Building Vertex Visibility from Connected Vehicle Trajectories using Spatial Indexing Artur Grigorev Adriana-Simona Mihaita 38 0 0 03 Jun 2025
Modelship Attribution: Tracing Multi-Stage Manipulations Across Generative Models Zhiya Tan Xin Zhang Joey Tianyi Zhou 68 0 0 03 Jun 2025
ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs Zeming Wei Chengcan Wu Meng Sun 57 0 0 02 Jun 2025
Comprehensive Vulnerability Analysis is Necessary for Trustworthy LLM-MAS Pengfei He Yue Xing Shen Dong Juanhui Li Zhenwei Dai ... Hui Liu Han Xu Zhen Xiang Charu C. Aggarwal Hui Liu LLMAG 84 0 0 02 Jun 2025
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models Youze Wang Wenbo Hu Yinpeng Dong Jing Liu Hanwang Zhang Richang Hong 55 2 0 02 Jun 2025
IF-GUIDE: Influence Function-Guided Detoxification of LLMs Zachary Coalson Juhan Bae Nicholas Carlini Sanghyun Hong TDI 79 0 0 02 Jun 2025
Spectral Insights into Data-Oblivious Critical Layers in Large Language Models Xuyuan Liu Lei Hsiung Yaoqing Yang Yujun Yan AAML 38 0 0 31 May 2025
Linear Representation Transferability Hypothesis: Leveraging Small Models to Steer Large Models Femi Bello Anubrata Das Fanzhi Zeng Fangcong Yin Liu Leqi LLMSV 42 0 0 31 May 2025
The Security Threat of Compressed Projectors in Large Vision-Language Models Yudong Zhang Ruobing Xie Xingwu Sun Jiansheng Chen Zhanhui Kang Di Wang Yu Wang 14 0 0 31 May 2025
Existing Large Language Model Unlearning Evaluations Are Inconclusive Zhili Feng Yixuan Even Xu Alexander Robey Robert Kirk Xander Davies Yarin Gal Avi Schwarzschild J. Zico Kolter MU ELM 25 0 0 31 May 2025
SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues Martin Kuo Jianyi Zhang Aolin Ding Louis DiValentin Amin Hass ... Bhavna Gopal Maziyar Baran Pouyan Changwei Liu H. Li Yiran Chen AAML 23 0 0 31 May 2025
TRAPDOC: Deceiving LLM Users by Injecting Imperceptible Phantom Tokens into Documents Hyundong Jin Sicheol Sung Shinwoo Park SeungYeop Baik Yo-Sub Han 25 0 0 30 May 2025
Learning Safety Constraints for Large Language Models Xin Chen Yarden As Andreas Krause 36 0 0 30 May 2025
A Red Teaming Roadmap Towards System-Level Safety Zifan Wang Christina Q. Knight Jeremy Kritz Willow Primack Julian Michael AAML 45 0 0 30 May 2025
Adversarial Preference Learning for Robust LLM Alignment Yuanfu Wang Pengyu Wang Chenyang Xi Bo Tang Junyi Zhu ... Keming Mao Zhiyu Li Feiyu Xiong Jie Hu Mingchuan Yang AAML 22 0 0 30 May 2025
SC-LoRA: Balancing Efficient Fine-tuning and Knowledge Preservation via Subspace-Constrained LoRA Minrui Luo Fuhang Kuang Yu Wang Zirui Liu Tianxing He CLL 58 0 0 29 May 2025
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents Kunlun Zhu Jiaxun Zhang Ziheng Qi Nuoxing Shang Zijia Liu Peixuan Han Yue Su Haofei Yu Jiaxuan You 59 0 0 29 May 2025
Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs Haokun Chen Y. Zhang Yuan Bi Yao Zhang Tong Liu ... Jindong Gu Claudia Grosser Denis Krompass Nassir Navab Volker Tresp MU 61 2 0 29 May 2025
LLM Agents Should Employ Security Principles Kaiyuan Zhang Zian Su Pin-Yu Chen E. Bertino Xiangyu Zhang Ninghui Li LLMAG Presented at ResearchTrend Connect \| LLMAG on 02 Jul 2025 99 1 0 29 May 2025
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities Sahil Verma Keegan E. Hines J. Bilmes Charlotte Siska Luke Zettlemoyer Hila Gonen Chandan Singh AAML 22 0 0 29 May 2025
MEF: A Capability-Aware Multi-Encryption Framework for Evaluating Vulnerabilities in Black-Box Large Language Models Mingyu Yu Wei Wang Y. X. Wei Sujuan Qin Fei Gao Wenmin Li AAML 40 0 0 29 May 2025
Operationalizing CaMeL: Strengthening LLM Defenses for Enterprise Deployment Krti Tallam Emma Miller 40 0 0 28 May 2025
Risks of AI-driven product development and strategies for their mitigation Jan Göpfert J. Weinand Patrick Kuckertz Noah Pflugradt Jochen Linßen 19 0 0 28 May 2025
Jailbreak Distillation: Renewable Safety Benchmarking Jingyu Zhang Ahmed Elgohary Xiawei Wang A S M Iftekhar Ahmed Magooda Benjamin Van Durme Daniel Khashabi Kyle Jackson AAML ALM 92 0 0 28 May 2025
PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing Yu Yan Sheng Sun Zhifei Zheng Ziji Hao Teli Liu Min Liu AAML 184 0 0 27 May 2025
The Multilingual Divide and Its Impact on Global AI Safety Aidan Peppin Julia Kreutzer Alice Schoenauer Sebag Kelly Marchisio Beyza Ermis ... Wei-Yin Ko Ahmet Üstün Matthias Gallé Marzieh Fadaee Sara Hooker ELM 75 1 0 27 May 2025
Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space Yao Huang Yitong Sun Shouwei Ruan Yichi Zhang Yinpeng Dong Xingxing Wei AAML 48 0 0 27 May 2025
SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge Fengqing Jiang Fengbo Ma Zhangchen Xu Yuetai Li Bhaskar Ramasubramanian Luyao Niu Bo Li Xianyan Chen Zhen Xiang Radha Poovendran ALM ELM 70 1 0 27 May 2025
System Prompt Extraction Attacks and Defenses in Large Language Models B. Das M. H. Amini Yanzhao Wu AAML 19 0 0 27 May 2025
CPA-RAG:Covert Poisoning Attacks on Retrieval-Augmented Generation in Large Language Models Chunyang Li Junwei Zhang Anda Cheng Zhuo Ma Xinghua Li Jianfeng Ma SILM AAML 42 0 0 26 May 2025
Benign-to-Toxic Jailbreaking: Inducing Harmful Responses from Harmless Prompts H. Kim Minbeom Kim Wonjun Lee Kihyun Kim Changick Kim 32 0 0 26 May 2025
JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models Jiaxin Song Yixu Wang Jie Li Rui Yu Yan Teng Xingjun Ma Yingchun Wang AAML 58 0 0 26 May 2025
Lifelong Safety Alignment for Language Models Haoyu Wang Zeyu Qin Yifei Zhao C. Du Min Lin Xueqian Wang Tianyu Pang KELM CLL 70 1 0 26 May 2025
SGM: A Framework for Building Specification-Guided Moderation Filters M. Fatehkia Enes Altinisik Husrev Taha Sencar 51 1 0 26 May 2025
Attention! You Vision Language Model Could Be Maliciously Manipulated Xiaosen Wang Shaokang Wang Zhijin Ge Yuyang Luo Shudong Zhang AAML VLM 37 0 0 26 May 2025
Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations Sanjay Kariyappa G. E. Suh 46 0 0 25 May 2025
An Embarrassingly Simple Defense Against LLM Abliteration Attacks Harethah Shairah Hasan Hammoud Bernard Ghanem G. Turkiyyah 63 0 0 25 May 2025
Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment? Hongzheng Yang Yongqiang Chen Zeyu Qin Tongliang Liu Chaowei Xiao Kun Zhang Bo Han LLMSV 44 0 0 24 May 2025
Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework Binhao Ma Hanqing Guo Z. Luo Rui Duan AAML AuLLM 26 0 0 24 May 2025