Hydra: An Agentic Reasoning Approach for Enhancing Adversarial Robustness and Mitigating Hallucinations in Vision-Language Models

Hydra: An Agentic Reasoning Approach for Enhancing Adversarial Robustness and Mitigating Hallucinations in Vision-Language Models

19 April 2025

Nathaniel D. Bastian

ArXiv (abs)PDF HTML

Papers citing "Hydra: An Agentic Reasoning Approach for Enhancing Adversarial Robustness and Mitigating Hallucinations in Vision-Language Models"

16 / 16 papers shown

Title
Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models Pete Janowczyk Linda Laurier Ave Giulietta Arlo Octavia Meade Cleti AAML 29 3 0 07 Nov 2024
Hallucination of Multimodal Large Language Models: A Survey Zechen Bai Pichao Wang Tianjun Xiao Tong He Zongbo Han Zheng Zhang Mike Zheng Shou VLM LRM 217 197 0 29 Apr 2024
Woodpecker: Hallucination Correction for Multimodal Large Language Models Shukang Yin Chaoyou Fu Sirui Zhao Tong Xu Hao Wang Dianbo Sui Yunhang Shen Ke Li Xingguo Sun Enhong Chen VLM MLLM 92 132 0 24 Oct 2023
VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models Ziyi Yin Muchao Ye Tianrong Zhang Tianyu Du Jinguo Zhu Han Liu Jinghui Chen Ting Wang Fenglong Ma AAML VLM CoGe 89 44 0 07 Oct 2023
Adversarial Illusions in Multi-Modal Embeddings Tingwei Zhang Rishi Jha Eugene Bagdasaryan Vitaly Shmatikov AAML 121 11 0 22 Aug 2023
On Evaluating Adversarial Robustness of Large Vision-Language Models Yunqing Zhao Tianyu Pang Chao Du Xiao Yang Chongxuan Li Ngai-Man Cheung Min Lin VLM AAML MLLM 133 180 0 26 May 2023
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing Zhibin Gou Zhihong Shao Yeyun Gong Yelong Shen Yujiu Yang Nan Duan Weizhu Chen KELM LRM 91 396 0 19 May 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 295 956 0 27 Apr 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 450 2,976 0 06 Oct 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 557 4,413 0 28 Jan 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 505 15,788 0 20 Dec 2021
End-to-End Object Detection with Transformers Nicolas Carion Francisco Massa Gabriel Synnaeve Nicolas Usunier Alexander Kirillov Sergey Zagoruyko ViT 3DV PINN 454 13,130 0 26 May 2020
Adversarial Attacks and Defences: A Survey Anirban Chakraborty Manaar Alam Vishal Dey Anupam Chattopadhyay Debdeep Mukhopadhyay AAML OOD 89 683 0 28 Sep 2018
Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks Weilin Xu David Evans Yanjun Qi AAML 97 1,273 0 04 Apr 2017
A study of the effect of JPG compression on adversarial images Gintare Karolina Dziugaite Zoubin Ghahramani Daniel M. Roy AAML 94 535 0 02 Aug 2016
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 224 2,496 0 01 Apr 2015