Title
DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt Yitong Zhang Jia Li L. Cai Ge Li VLM 55 0 0 11 Jun 2025
GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking Yufei Zhan Ziheng Wu Yousong Zhu Rongkun Xue Ruipu Luo ... Zhentao He Zheming Yang Ming Tang Minghui Qiu Jinqiao Wang MLLM ReLM LRM 55 0 0 01 Jun 2025
Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap Wenhan Yang Spencer Stice Ali Payani Baharan Mirzasoleiman MLLM 30 0 0 30 May 2025
USB: A Comprehensive and Unified Safety Evaluation Benchmark for Multimodal Large Language Models Baolin Zheng Guanlin Chen Hongqiong Zhong Qingyang Teng Yingshui Tan ... Jincheng Wei Wenbo Su Xiaoyong Zhu Bo Zheng Kaifu Zhang ELM 26 0 0 26 May 2025
From Evaluation to Defense: Advancing Safety in Video Large Language Models Yiwei Sun Peiqi Jiang Chuanbin Liu Luohao Lin Zhiying Lu Hongtao Xie 53 0 0 22 May 2025
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning Yang Liu Shengfang Zhai Mingzhe Du Yulin Chen Tri Cao ... Xuzhao Li Kun Wang Junfeng Fang Jiaheng Zhang Bryan Hooi OffRL LRM 107 3 0 16 May 2025
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA Karthik Reddy Kanjula Surya Guthikonda Nahid Alam Shayekh Bin Islam 79 0 0 09 May 2025
Mapping User Trust in Vision Language Models: Research Landscape, Challenges, and Prospects Agnese Chiatti Sara Bernardini Lara Shibelski Godoy Piccolo Viola Schiaffonati Matteo Matteucci 101 0 0 08 May 2025
Safety in Large Reasoning Models: A Survey Cheng Wang Yang Liu Yangqiu Song Duzhen Zhang Zechao Li ... Shengju Yu Xinfeng Li Junfeng Fang Jiaheng Zhang Bryan Hooi LRM 452 14 0 24 Apr 2025
VLMGuard-R1: Proactive Safety Alignment for VLMs via Reasoning-Driven Prompt Optimization Menglan Chen Xianghe Pang Jingjing Dong Wenhao Wang Yaxin Du Siheng Chen LRM 111 0 0 17 Apr 2025
Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots Erfan Shayegani G M Shahariar Sara Abdali Lei Yu Nael B. Abu-Ghazaleh Yue Dong AAML 142 0 0 01 Apr 2025
Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback Yalan Qin Xiuying Chen Rui Pan Han Zhu Chen Zhang ... Chi-Min Chan Sirui Han Yike Guo Yiran Yang Yaodong Yang OffRL 146 0 0 22 Mar 2025
Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning Yiwei Chen Yuguang Yao Yihua Zhang Bingquan Shen Gaowen Liu Sijia Liu AAML MU 117 2 0 14 Mar 2025
SHAPE : Self-Improved Visual Preference Alignment by Iteratively Generating Holistic Winner Kejia Chen Jiawen Zhang Jiacong Hu Jiazhen Yang Jian Lou Zunlei Feng Mingli Song 134 0 0 06 Mar 2025
SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings Weikai Lu Hao Peng Huiping Zhuang Cen Chen Huiping Zhuang 84 0 0 18 Feb 2025
Understanding and Rectifying Safety Perception Distortion in VLMs Xiaohan Zou Jian Kang George Kesidis Lu Lin 484 2 0 18 Feb 2025
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning Di Zhang Jingdi Lei Junxian Li Xunzhi Wang Yong Liu ... Steve Yang Jianbo Wu Peng Ye Wanli Ouyang Dongzhan Zhou OffRL LRM 190 8 0 27 Nov 2024
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization Weiyun Wang Zhe Chen Wenhai Wang Yue Cao Yangzhou Liu ... Jinguo Zhu X. Zhu Lewei Lu Yu Qiao Jifeng Dai LRM 143 93 1 15 Nov 2024
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models Hao Yang Zhuang Li Ehsan Shareghi Gholamreza Haffari AAML 81 7 0 31 Oct 2024
Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models Hao Yang Zhuang Li Ehsan Shareghi Gholamreza Haffari AAML 104 2 0 15 Oct 2024
Have the VLMs Lost Confidence? A Study of Sycophancy in VLMs Shuo Li Tao Ji Xiaoran Fan Linsheng Lu L. Yang ... Yansen Wang Xiaohui Zhao Tao Gui Qi Zhang Xuanjing Huang 80 1 0 15 Oct 2024
How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? Seongyun Lee Geewook Kim Jiyeon Kim Hyunji Lee Hoyeon Chang Sue Hyun Park Minjoon Seo 84 1 0 10 Oct 2024
ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time Yi Ding Bolian Li Ruqi Zhang MLLM 138 15 0 09 Oct 2024
Building and better understanding vision-language models: insights and future directions Hugo Laurençon Andrés Marafioti Victor Sanh Léo Tronchon VLM 138 78 0 22 Aug 2024
$$\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models$ $\textit{MMJ-Bench}$ : A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models Fenghua Weng Yue Xu Chengyan Fu Wenjie Wang AAML 90 0 0 16 Aug 2024
A Single Transformer for Scalable Vision-Language Modeling Yangyi Chen Xingyao Wang Hao Peng Heng Ji LRM 107 17 0 08 Jul 2024
Hallucination of Multimodal Large Language Models: A Survey Zechen Bai Pichao Wang Tianjun Xiao Tong He Zongbo Han Zheng Zhang Mike Zheng Shou VLM LRM 258 197 0 29 Apr 2024
Assessment of Multimodal Large Language Models in Alignment with Human Values Zhelun Shi Zhipin Wang Hongxing Fan Zaibin Zhang Lijun Li Yongting Zhang Zhen-fei Yin Lu Sheng Yu Qiao Jing Shao 77 22 0 26 Mar 2024
Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models Yifan Li Hangyu Guo Kun Zhou Wayne Xin Zhao Ji-Rong Wen 132 56 0 14 Mar 2024
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization Renjie Pi Tianyang Han Wei Xiong Jipeng Zhang Runtao Liu Boyao Wang Tong Zhang MLLM 137 48 0 13 Mar 2024
VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models Jiawei Liang Siyuan Liang Man Luo Aishan Liu Dongchen Han Ee-Chien Chang Xiaochun Cao 105 47 0 21 Feb 2024
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning Yiyang Zhou Chenhang Cui Rafael Rafailov Chelsea Finn Huaxiu Yao VLM MLLM 120 121 0 18 Feb 2024
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models Siddharth Karamcheti Suraj Nair Ashwin Balakrishna Percy Liang Thomas Kollar Dorsa Sadigh MLLM VLM 121 132 0 12 Feb 2024
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models Lijun Li Bowen Dong Ruohui Wang Xuhao Hu Wangmeng Zuo Dahua Lin Yu Qiao Jing Shao ELM 129 105 0 07 Feb 2024
Jailbreaking Attack against Multimodal Large Language Model Zhenxing Niu Haoxuan Ji Xinbo Gao Gang Hua Rong Jin 97 76 0 04 Feb 2024
Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models Yongshuo Zong Ondrej Bohdal Tingyang Yu Yongxin Yang Timothy M. Hospedales VLM MLLM 128 73 0 03 Feb 2024
Harm Amplification in Text-to-Image Models Susan Hao Renee Shelby Yuchi Liu Hansa Srinivasan Mukul Bhutani Burcu Karagol Ayan Ryan Poplin Shivani Poddar Sarah Laszlo 103 9 0 01 Feb 2024
Red Teaming Visual Language Models Mukai Li Lei Li Yuwei Yin Masood Ahmed Zhenguang Liu Qi Liu VLM 114 38 0 23 Jan 2024
PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety Zaibin Zhang Yongting Zhang Lijun Li Hongzhi Gao Lijun Wang Huchuan Lu Feng Zhao Yu Qiao Jing Shao LLMAG 86 41 0 22 Jan 2024
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance Pengyu Wang Dong Zhang Linyang Li Chenkun Tan Xinghao Wang Ke Ren Botian Jiang Xipeng Qiu LLMSV 95 49 0 20 Jan 2024
MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance Renjie Pi Tianyang Han Jianshu Zhang Yueqi Xie Boyao Wang Qing Lian Hanze Dong Jipeng Zhang Tong Zhang AAML 107 71 0 05 Jan 2024
GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse Hongzhan Lin Ziyang Luo Bo Wang Ruichao Yang Jing Ma 116 31 0 03 Jan 2024
MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception Yiran Qin Enshen Zhou Qichang Liu Zhen-fei Yin Lu Sheng Ruimao Zhang Yu Qiao Jing Shao LM&Ro 122 50 0 12 Dec 2023
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations Hakan Inan Kartikeya Upasani Jianfeng Chi Rashi Rungta Krithika Iyer ... Michael Tontchev Qing Hu Brian Fuller Davide Testuggine Madian Khabsa AI4MH 172 466 0 07 Dec 2023
MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models Xin Liu Yichen Zhu Jindong Gu Yunshi Lan Chao Yang Yu Qiao 137 109 0 29 Nov 2023
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs Haoqin Tu Chenhang Cui Zijun Wang Yiyang Zhou Bingchen Zhao Junlin Han Wangchunshu Zhou Huaxiu Yao Cihang Xie MLLM 128 82 0 27 Nov 2023
Large Language Models as Automated Aligners for benchmarking Vision-Language Models Yuanfeng Ji Chongjian Ge Weikai Kong Enze Xie Zhengying Liu Zhengguo Li Ping Luo MLLM ELM 96 7 0 24 Nov 2023
DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback Yangyi Chen Karan Sikka Michael Cogswell Heng Ji Ajay Divakaran 131 72 0 16 Nov 2023
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts Yichen Gong Delong Ran Jinyuan Liu Conglei Wang Tianshuo Cong Anyu Wang Sisi Duan Xiaoyun Wang MLLM 235 161 0 09 Nov 2023
Sociotechnical Safety Evaluation of Generative AI Systems Laura Weidinger Maribeth Rauh Nahema Marchal Arianna Manzini Lisa Anne Hendricks ... Conor Griffin Ben Bariach Iason Gabriel Verena Rieser William S. Isaac EGVM 68 141 0 18 Oct 2023