Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update

24 January 2025

Papers citing "Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update"

6 / 6 papers shown

Title
Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities Jiahui Geng Thy Thy Tran Preslav Nakov Iryna Gurevych MLLM AAML 39 0 0 31 May 2025
VSCBench: Bridging the Gap in Vision-Language Model Safety Calibration Jiahui Geng Qing Li Zongxiong Chen Yuxia Wang Derui Zhu Zhuohan Xie Chenyang Lyu Xiuying Chen Preslav Nakov Fakhri Karray VLM 42 1 0 26 May 2025
Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations Li Ji-An Hua-Dong Xiong Robert C. Wilson Marcelo G. Mattar M. Benna 83 0 0 19 May 2025
A Comprehensive Analysis for Visual Object Hallucination in Large Vision-Language Models Liqiang Jing Guiming Hardy Chen Ehsan Aghazadeh Xin Eric Wang Xinya Du 135 0 0 04 May 2025
SAUCE: Selective Concept Unlearning in Vision-Language Models with Sparse Autoencoders Qing Li Jiahui Geng Derui Zhu Fengyu Cai Chenyang Lyu Fakhri Karray MU 105 2 0 16 Mar 2025
A Comprehensive Survey of Machine Unlearning Techniques for Large Language Models Jiahui Geng Qing Li Herbert Woisetschlaeger Zongxiong Chen Yansen Wang Preslav Nakov Preslav Nakov Hans-Arno Jacobsen Fakhri Karray MU 81 5 0 22 Feb 2025