Defending Jailbreak Attack in VLMs via Cross-modality Information
Detector

v1v2 (latest)

Defending Jailbreak Attack in VLMs via Cross-modality Information Detector

31 July 2024

ArXiv (abs)PDF HTML

Papers citing "Defending Jailbreak Attack in VLMs via Cross-modality Information Detector"

10 / 10 papers shown

Title
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks Yunhan Zhao Xiang Zheng Lin Luo Yige Li Xingjun Ma Yu-Gang Jiang VLM AAML 101 6 0 28 Oct 2024
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting Yu Wang Xiaogeng Liu Yu-Feng Li Muhao Chen Chaowei Xiao AAML 81 60 0 14 Mar 2024
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance Pengyu Wang Dong Zhang Linyang Li Chenkun Tan Xinghao Wang Ke Ren Botian Jiang Xipeng Qiu LLMSV 82 49 0 20 Jan 2024
MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance Renjie Pi Tianyang Han Jianshu Zhang Yueqi Xie Boyao Wang Qing Lian Hanze Dong Jipeng Zhang Tong Zhang AAML 79 69 0 05 Jan 2024
DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback Yangyi Chen Karan Sikka Michael Cogswell Heng Ji Ajay Divakaran 110 72 0 16 Nov 2023
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts Yichen Gong Delong Ran Jinyuan Liu Conglei Wang Tianshuo Cong Anyu Wang Sisi Duan Xiaoyun Wang MLLM 220 158 0 09 Nov 2023
Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models Erfan Shayegani Yue Dong Nael B. Abu-Ghazaleh 103 152 0 26 Jul 2023
MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots Gelei Deng Yi Liu Yuekang Li Kailong Wang Ying Zhang Zefeng Li Haoyu Wang Tianwei Zhang Yang Liu SILM 85 133 0 16 Jul 2023
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning Wenliang Dai Junnan Li Dongxu Li A. M. H. Tiong Junqi Zhao Weisheng Wang Boyang Albert Li Pascale Fung Steven C. H. Hoi MLLM VLM 139 2,095 0 11 May 2023
Improved Denoising Diffusion Probabilistic Models Alex Nichol Prafulla Dhariwal DiffM 352 3,716 0 18 Feb 2021