v1v2v3 (latest)

Image Hijacks: Adversarial Images can Control Generative Models at Runtime

1 September 2023

Papers citing "Image Hijacks: Adversarial Images can Control Generative Models at Runtime"

50 / 71 papers shown

Title
From LLMs to MLLMs to Agents: A Survey of Emerging Paradigms in Jailbreak Attacks and Defenses within LLM Ecosystem Yanxu Mao Tiehan Cui Peipei Liu Datao You Hongsong Zhu AAML 17 0 0 18 Jun 2025
Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities Jiahui Geng Thy Thy Tran Preslav Nakov Iryna Gurevych MLLM AAML 45 0 0 31 May 2025
Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment Xiaojun Jia Sensen Gao Simeng Qin Tianyu Pang C. Du Yihao Huang Xinfeng Li Yiming Li Bo Li Yang Liu AAML 50 0 0 27 May 2025
JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models Jiaxin Song Yixu Wang Jie Li Rui Yu Yan Teng Xingjun Ma Yingchun Wang AAML 73 0 0 26 May 2025
VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models Bingrui Sima Linhua Cong Wenxuan Wang Kun He AAML LRM 43 0 0 26 May 2025
Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs Xuannan Liu Zekun Li Zheqi He Peipei Li Shuhan Xia Xing Cui Huaibo Huang Xi Yang Ran He EGVM AAML 99 1 0 17 May 2025
REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM Madhur Jindal Saurabh Deshpande AAML 97 0 0 07 May 2025
Transferable Adversarial Attacks on Black-Box Vision-Language Models Kai Hu Weichen Yu Lefei Zhang Alexander Robey Andy Zou Chengming Xu Haoqi Hu Matt Fredrikson AAML VLM 141 2 0 02 May 2025
Mind the Trojan Horse: Image Prompt Adapter Enabling Scalable and Deceptive Jailbreaking Junxi Chen Junhao Dong Xiaohua Xie 91 0 0 08 Apr 2025
A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models Carlos Peláez-González Andrés Herrera-Poyatos Cristina Zuheros David Herrera-Poyatos Virilo Tejedor F. Herrera AAML 80 0 0 07 Apr 2025
Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots Erfan Shayegani G M Shahariar Sara Abdali Lei Yu Nael B. Abu-Ghazaleh Yue Dong AAML 142 0 0 01 Apr 2025
Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models Runpeng Dai Run Yang Fan Zhou Hongtu Zhu 62 0 0 28 Mar 2025
Survey of Adversarial Robustness in Multimodal Large Language Models Chengze Jiang Zhuangzhuang Wang Minjing Dong Jie Gui AAML 112 3 0 18 Mar 2025
Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning Yiwei Chen Yuguang Yao Yihua Zhang Bingquan Shen Gaowen Liu Sijia Liu AAML MU 117 2 0 14 Mar 2025
ExtremeAIGC: Benchmarking LMM Vulnerability to AI-Generated Extremist Content Bhavik Chandna Mariam Aboujenane Usman Naseem 102 0 0 13 Mar 2025
Attacking Multimodal OS Agents with Malicious Image Patches Lukas Aichberger Alasdair Paren Y. Gal Philip Torr Adel Bibi AAML 131 5 0 13 Mar 2025
Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs Wenzhuo Xu Zhipeng Wei Xiongtao Sun Deyue Zhang Dongdong Yang Quanchen Zou Xinming Zhang AAML 92 0 0 10 Mar 2025
Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation Yinuo Liu Zenghui Yuan Guiyao Tie Jiawen Shi Lichao Sun Lichao Sun Neil Zhenqiang Gong 114 2 0 08 Mar 2025
Red Team Diffuser: Exposing Toxic Continuation Vulnerabilities in Vision-Language Models via Reinforcement Learning Ruofan Wang Xiang Zheng Xinyu Wang Cong Wang Jie Zhang VLM 73 0 0 08 Mar 2025
SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning Borong Zhang Yuhao Zhang Yalan Qin Yingshan Lei Josef Dai Yuanpei Chen Yaodong Yang 128 0 0 05 Mar 2025
FC-Attack: Jailbreaking Multimodal Large Language Models via Auto-Generated Flowcharts Ziyi Zhang Zhen Sun Zheng Zhang Jihui Guo Xinlei He AAML 141 4 0 28 Feb 2025
On the Robustness of Transformers against Context Hijacking for Linear Classification Tianle Li Chenyang Zhang Xingwu Chen Yuan Cao Difan Zou 128 2 0 24 Feb 2025
Towards Robust Multimodal Large Language Models Against Jailbreak Attacks Ziyi Yin Yuanpu Cao Han Liu Ting Wang Jinghui Chen Fenhlong Ma AAML 105 1 0 02 Feb 2025
Image-based Multimodal Models as Intruders: Transferable Multimodal Attacks on Video-based MLLMs Linhao Huang Xue Jiang Zhiqiang Wang Wentao Mo Xi Xiao Bo Han Yongjie Yin Feng Zheng AAML 158 4 0 02 Jan 2025
Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks Peng Xie Yequan Bie Jianda Mao Yangqiu Song Yang Wang Hao Chen Kani Chen AAML 116 1 0 24 Nov 2024
PSA-VLM: Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment Zhendong Liu Yuanbi Nie Yingshui Tan Xiangyu Yue Qiushi Cui Chongjun Wang Xiaoyong Zhu Jian Xu Bo Zheng 151 0 0 18 Nov 2024
SoK: Unifying Cybersecurity and Cybersafety of Multimodal Foundation Models with an Information Theory Approach Ruoxi Sun Jiamin Chang Hammond Pearce Chaowei Xiao B. Li Qi Wu Surya Nepal Minhui Xue 119 0 0 17 Nov 2024
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey Xuannan Liu Xing Cui Peipei Li Zekun Li Huaibo Huang Shuhan Xia Miaoxuan Zhang Yueying Zou Ran He AAML 160 11 0 14 Nov 2024
UniGuard: Towards Universal Safety Guardrails for Jailbreak Attacks on Multimodal Large Language Models Sejoon Oh Yiqiao Jin Megha Sharma Donghyun Kim Eric Ma Gaurav Verma Srijan Kumar 127 7 0 03 Nov 2024
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks Yunhan Zhao Xiang Zheng Lin Luo Yige Li Xingjun Ma Yu-Gang Jiang VLM AAML 115 7 0 28 Oct 2024
ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time Yi Ding Bolian Li Ruqi Zhang MLLM 140 15 0 09 Oct 2024
HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Ruibin Yuan Xueqi Cheng 113 5 0 03 Oct 2024
PIP: Detecting Adversarial Examples in Large Vision-Language Models via Attention Patterns of Irrelevant Probe Questions Yudong Zhang Ruobing Xie Jiansheng Chen Xingwu Sun Yu Wang AAML 66 3 0 08 Sep 2024
$$\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models$ $\textit{MMJ-Bench}$ : A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models Fenghua Weng Yue Xu Chengyan Fu Wenjie Wang AAML 90 0 0 16 Aug 2024
Refusing Safe Prompts for Multi-modal Large Language Models Zedian Shao Hongbin Liu Yuepeng Hu Neil Zhenqiang Gong MLLM LRM 82 1 0 12 Jul 2024
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends Daizong Liu Mingyu Yang Xiaoye Qu Pan Zhou Yu Cheng Wei Hu ELM AAML 108 33 0 10 Jul 2024
Granular Privacy Control for Geolocation with Vision Language Models Ethan Mendes Yang Chen James Hays Sauvik Das Wei Xu Alan Ritter 94 4 0 06 Jul 2024
JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models Haibo Jin Leyang Hu Xinuo Li Peiyan Zhang Chonghan Chen Jun Zhuang Haohan Wang PILM 105 32 0 26 Jun 2024
From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking Siyuan Wang Zhuohan Long Zhihao Fan Zhongyu Wei 88 12 0 21 Jun 2024
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model Yongting Zhang Lu Chen Guodong Zheng Yifeng Gao Rui Zheng ... Yu Qiao Xuanjing Huang Feng Zhao Tao Gui Jing Shao VLM 228 33 0 17 Jun 2024
Improving Alignment and Robustness with Circuit Breakers Andy Zou Long Phan Justin Wang Derek Duenas Maxwell Lin Maksym Andriushchenko Rowan Wang Zico Kolter Matt Fredrikson Dan Hendrycks AAML 147 114 0 06 Jun 2024
White-box Multimodal Jailbreaks Against Large Vision-Language Models Ruofan Wang Xingjun Ma Hanxu Zhou Chuanjun Ji Guangnan Ye Yu-Gang Jiang AAML VLM 84 24 0 28 May 2024
Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors Jiachen Sun Changsheng Wang Jiong Wang Yiwei Zhang Chaowei Xiao AAML VLM 88 4 0 17 May 2024
Adversarial Robustness Limits via Scaling-Law and Human-Alignment Studies Brian Bartoldson James Diffenderfer Konstantinos Parasyris B. Kailkhura AAML 134 19 0 14 Apr 2024
Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security Yihe Fan Yuxin Cao Ziyu Zhao Ziyao Liu Shaofeng Li 93 15 0 08 Apr 2024
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation Yunhao Gou Kai Chen Zhili Liu Lanqing Hong Hang Xu Zhenguo Li Dit-Yan Yeung James T. Kwok Yu Zhang MLLM 125 52 0 14 Mar 2024
Defending Against Unforeseen Failure Modes with Latent Adversarial Training Stephen Casper Lennart Schulze Oam Patel Dylan Hadfield-Menell AAML 124 40 0 08 Mar 2024
Coercing LLMs to do and reveal (almost) anything Jonas Geiping Alex Stein Manli Shu Khalid Saifullah Yuxin Wen Tom Goldstein AAML 85 55 0 21 Feb 2024
The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative Zhen Tan Chengshuai Zhao Raha Moraffah Yifan Li Yu Kong Tianlong Chen Huan Liu 94 17 0 20 Feb 2024
Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models Christian Schlarmann Naman D. Singh Francesco Croce Matthias Hein VLM AAML 106 50 0 19 Feb 2024