v1v2v3v4v5v6v7 (latest)

VQA: Visual Question Answering

3 May 2015

Devi Parikh

Papers citing "VQA: Visual Question Answering"

50 / 2,957 papers shown

Title
Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models Yingshui Tan Yilei Jiang Yongbin Li Qingbin Liu Xingyuan Bu Wenbo Su Xiangyu Yue Xiaoyong Zhu Bo Zheng ALM 153 6 0 17 Feb 2025
Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models Shintaro Ozaki Kazuki Hayashi Yusuke Sakai Hidetaka Kamigaito Katsuhiko Hayashi Taro Watanabe LRM 150 1 0 17 Feb 2025
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering Zeqing Wang Wentao Wan Qiqing Lao Runmeng Chen Minjie Lang Keze Wang Liang Lin Liang Lin LRM 234 3 0 17 Feb 2025
VAQUUM: Are Vague Quantifiers Grounded in Visual Data? Hugh Mee Wong Rick Nouwen Albert Gatt 155 0 0 17 Feb 2025
Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding Xin Gu Yaojie Shen Chenxi Luo Tiejian Luo Yan Huang Yuewei Lin Heng Fan L. Zhang 104 2 0 16 Feb 2025
ProMRVL-CAD: Proactive Dialogue System with Multi-Round Vision-Language Interactions for Computer-Aided Diagnosis Xueshen Li Xinlong Hou Ziyi Huang Yu Gan LM&MA MedIm 87 0 0 15 Feb 2025
Visual Graph Question Answering with ASP and LLMs for Language Parsing Jakob Johannes Bauer Thomas Eiter Nelson Higuera Ruiz J. Oetsch GNN 158 0 0 13 Feb 2025
Commonsense Reasoning-Aided Autonomous Vehicle Systems Keegan Kimbrell LRM 158 0 0 13 Feb 2025
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation Mohammad Mahdi Abootorabi Amirhosein Zobeiri Mahdi Dehghani Mohammadali Mohammadkhani Bardia Mohammadi Omid Ghahroodi M. Baghshah Ehsaneddin Asgari RALM 351 7 0 12 Feb 2025
SB-Bench: Stereotype Bias Benchmark for Large Multimodal Models Vishal Narnaware Ashmal Vayani Rohit Gupta Swetha Sirnam Mubarak Shah 202 3 0 12 Feb 2025
DeepSeek on a Trip: Inducing Targeted Visual Hallucinations via Representation Vulnerabilities Chashi Mahiul Islam Samuel Jacob Chacko Preston Horne Xiuwen Liu 165 2 0 11 Feb 2025
Learning Musical Representations for Music Performance Question Answering Xingjian Diao Chunhui Zhang Tingxuan Wu Ming Cheng Z. Ouyang Weiyi Wu Jiang Gui 134 12 0 10 Feb 2025
Multi-Branch Collaborative Learning Network for Video Quality Assessment in Industrial Video Search Hengzhu Tang Zefeng Zhang Zhiping Li Zhenyu Zhang Xing Wu Li Gao Suqi Cheng Dawei Yin 111 1 0 09 Feb 2025
MTPChat: A Multimodal Time-Aware Persona Dataset for Conversational Agents Wanqi Yang Yongqian Li Meng Fang Lawrence Yunliang Chen 149 1 0 09 Feb 2025
Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment Minh-Quan Le Gaurav Mittal Tianjian Meng A S M Iftekhar Vishwas Suryanarayanan Barun Patra Dimitris Samaras Mei Chen DiffM 133 0 0 07 Feb 2025
Evaluating Hallucination in Large Vision-Language Models based on Context-Aware Object Similarities Shounak Datta Dhanasekar Sundararaman 85 1 0 28 Jan 2025
Using Large Language Models for education managements in Vietnamese with low resources Duc Do Minh Vinh Nguyen Van Thang Dam Cong 97 1 0 28 Jan 2025
Mirage in the Eyes: Hallucination Attack on Multi-modal Large Language Models with Only Attention Sink Yining Wang Mi Zhang Junjie Sun Chenyue Wang Min Yang Hui Xue Jialing Tao Ranjie Duan Qingbin Liu 65 2 0 28 Jan 2025
PuzzleGPT: Emulating Human Puzzle-Solving Ability for Time and Location Prediction Hammad A. Ayyubi Xuande Feng Junzhang Liu Xudong Lin Zhecan Wang Shih-Fu Chang 77 1 0 24 Jan 2025
Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering Qian Tao Xiaoyang Fan Yong Xu Xingquan Zhu Yufei Tang 77 0 0 22 Jan 2025
Know "No'' Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP J. Park Jungbeom Lee Jongyoon Song Sangwon Yu Dahuin Jung Sungroh Yoon 122 3 0 19 Jan 2025
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering Anupam Pandey Deepjyoti Bodo Arpan Phukan Asif Ekbal 150 0 0 13 Jan 2025
Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation Daowan Peng Wei Wei 473 1 0 10 Jan 2025
MULTI: Multimodal Understanding Leaderboard with Text and Images Zichen Zhu Yang Xu Lu Chen Jingkai Yang Yichuan Ma ... Yingzi Ma Situo Zhang Zihan Zhao Liangtai Sun Kai Yu VLM 116 5 0 08 Jan 2025
Multimodal Multihop Source Retrieval for Web Question Answering Navya Yarrabelly Saloni Mittal 43 0 0 07 Jan 2025
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos Haobo Yuan Xianrui Li Tao Zhang Zilong Huang Shilin Xu S. Ji Yunhai Tong Lu Qi Jiashi Feng Ming-Hsuan Yang VLM 195 25 0 07 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 171 15 0 06 Jan 2025
Efficient Architectures for High Resolution Vision-Language Models Miguel Carvalho Bruno Martins MLLM VLM 59 0 0 05 Jan 2025
Accounting for Focus Ambiguity in Visual Questions Chongyan Chen Yu-Yun Tseng Zhuoheng Li Anush Venkatesh Danna Gurari 90 0 0 04 Jan 2025
Advancements in Visual Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques Lijie Tao Han Zhang Haizhao Jing Yu Liu Kelu Yao Guoting Wei Xizhe Xue 144 0 0 03 Jan 2025
Instruction-Guided Scene Text Recognition Yongkun Du Z. Chen Yuchen Su Caiyan Jia Yu-Gang Jiang 212 3 0 03 Jan 2025
Mathematical Language Models: A Survey Wen Liu Hanglei Hu Jie Zhou Yuyang Ding Junsong Li ... Mengliang He Qin Chen Bo Jiang Aimin Zhou Liang He LRM 235 14 0 03 Jan 2025
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 284 5 0 31 Dec 2024
Generative Landmarks Guided Eyeglasses Removal 3D Face Reconstruction Dapeng Zhao Yue Qi 3DH CVBM 3DV 103 1 0 31 Dec 2024
SAFE-MEME: Structured Reasoning Framework for Robust Hate Speech Detection in Memes Palash Nandi Shivam Sharma Tanmoy Chakraborty 69 1 0 31 Dec 2024
From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models Ashay Athalye Nishanth Kumar Tom Silver Yichao Liang Tomás Lozano-Pérez Leslie Pack Kaelbling Leslie Kaelbling LM&Ro 109 6 0 31 Dec 2024
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Joey Tianyi Zhou Parisa Kordjamshidi LRM 161 24 0 31 Dec 2024
Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner Yitong Zhou Mingyue Cheng Qingyang Mao Qi Liu F. Xu LMTD 124 1 0 30 Dec 2024
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization Tan-Hanh Pham Hoang-Nam Le Phu-Vinh Nguyen Chris Ngo Truong-Son Hy AuLLM LRM 144 1 0 21 Dec 2024
A Review of Multimodal Explainable Artificial Intelligence: Past, Present and Future Shilin Sun Wenbin An Feng Tian Fang Nan Qidong Liu Jing Liu N. Shah Ping Chen 151 6 0 18 Dec 2024
What makes a good metric? Evaluating automatic metrics for text-to-image consistency Candace Ross Melissa Hall Adriana Romero Soriano Adina Williams 165 4 0 18 Dec 2024
LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer Yipeng Zhang Yi Liu Zonghao Guo Yidan Zhang Xuesong Yang ... Yuan Yao Zhiyuan Liu Tat-Seng Chua Maosong Sun Maosong Sun MLLM VLM 162 0 0 18 Dec 2024
SAMIC: Segment Anything with In-Context Spatial Prompt Engineering S. Nagendra Kashif Rashid Chaopeng Shen Daniel Kifer VLM 143 2 0 16 Dec 2024
PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension Kun Ouyang Yuanxin Liu Shicheng Li Yi Liu Hao Zhou Fandong Meng Jie Zhou Xu Sun 180 1 0 16 Dec 2024
ViSymRe: Vision-guided Multimodal Symbolic Regression Da Li Junping Yin Jin Xu Xinxin Li Juan Zhang 130 1 0 15 Dec 2024
Seeing the Forest and the Trees: Solving Visual Graph and Tree Based Data Structure Problems using Large Multimodal Models S. Gutierrez Irene Hou Jihye Lee Kenneth Angelikas Owen Man Sophia Mettille James Prather Paul Denny Stephen MacNeil 113 1 0 15 Dec 2024
Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval Yuanmin Tang Xiaoting Qin Jing Zhang Jing Yu Gaopeng Gou Gang Xiong Qingwei Ling Saravan Rajmohan Dongmei Zhang Qi Wu LRM 111 1 0 15 Dec 2024
NoisyEQA: Benchmarking Embodied Question Answering Against Noisy Queries Tao Wu Chuhao Zhou Yen Heng Wong Lin Gu Jianfei Yang 131 2 0 14 Dec 2024
Olympus: A Universal Task Router for Computer Vision Tasks Yuanze Lin Yunsheng Li Dongdong Chen Weijian Xu Ronald Clark Philip Torr VLM ObjD 548 1 0 12 Dec 2024
MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models Sayak Chakrabarty Souradip Pal LRM 113 1 0 10 Dec 2024