Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training

17 February 2025

Papers citing "Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training"

2 / 2 papers shown

Title
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning Yong-Jin Liu Shengfang Zhai Mingzhe Du Yulin Chen Tri Cao ... Xuzhao Li Kun Wang Junfeng Fang Jiaheng Zhang Bryan Hooi OffRL LRM 7 0 0 16 May 2025
Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots Erfan Shayegani G M Shahariar Sara Abdali Lei Yu Nael B. Abu-Ghazaleh Yue Dong AAML 78 0 0 01 Apr 2025