v1v2v3v4v5v6v7 (latest)

VQA: Visual Question Answering

3 May 2015

Devi Parikh

Papers citing "VQA: Visual Question Answering"

50 / 2,957 papers shown

Title
MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? Jinming Li Yichen Zhu Zhiyuan Xu Jindong Gu Minjie Zhu Xin Liu Ning Liu Yaxin Peng Feifei Feng Jian Tang LRM LM&Ro 103 8 0 28 Jun 2024
The Illusion of Competence: Evaluating the Effect of Explanations on Users' Mental Models of Visual Question Answering Systems Judith Sieker Simeon Junker R. Utescher Nazia Attari H. Wersing Hendrik Buschmeier Sina Zarrieß 56 2 0 27 Jun 2024
Fairness and Bias in Multimodal AI: A Survey Tosin Adewumi Lama Alkhaled Namrata Gurung G. V. Boven Irene Pagliai 117 10 0 27 Jun 2024
On the Role of Visual Grounding in VQA Daniel Reich Tanja Schultz 94 1 0 26 Jun 2024
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning Xiangyu Zhao Xiangtai Li Haodong Duan Haian Huang Yining Li Kai Chen Hua Yang VLM MLLM 118 12 0 25 Jun 2024
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models Wenhao Shi Zhiqiang Hu Yi Bin Junhua Liu Yang Yang See-Kiong Ng Lidong Bing Roy Ka-Wei Lee SyDa MLLM LRM 113 62 0 25 Jun 2024
Long Context Transfer from Language to Vision Peiyuan Zhang Kaichen Zhang Bo Li Guangtao Zeng Jingkang Yang Yuanhan Zhang Ziyue Wang Haoran Tan Chunyuan Li Ziwei Liu VLM 145 189 0 24 Jun 2024
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models Yuxuan Wang Yueqian Wang Dongyan Zhao Cihang Xie Zilong Zheng MLLM VLM 100 31 0 24 Jun 2024
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration Yujin Baek Yujin Baek J. Kim Yu-Jung Heo Du-Seong Chang Jaegul Choo 114 6 0 24 Jun 2024
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception Guanqun Wang Xinyu Wei Jiaming Liu Ray Zhang Yichi Zhang Kevin Zhang Maurice Chong Shanghang Zhang VLM LRM 62 0 0 22 Jun 2024
Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning Brandon Huang Chancharik Mitra Assaf Arbelle Leonid Karlinsky Trevor Darrell Roei Herzig 101 21 0 21 Jun 2024
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images Rushikesh Zawar Shaurya Dewan Andrew F. Luo Margaret M. Henderson Michael J. Tarr Leila Wehbe VGen CoGe 76 1 0 19 Jun 2024
Enhancing Cross-Prompt Transferability in Vision-Language Models through Contextual Injection of Target Tokens Xikang Yang Xuehai Tang Fuqing Zhu Jizhong Han Songlin Hu VLM AAML 76 1 0 19 Jun 2024
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs Navid Rajabi Jana Kosecka 71 14 0 19 Jun 2024
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models Akchay Srivastava Atif Memon ELM 85 1 0 19 Jun 2024
MC-MKE: A Fine-Grained Multimodal Knowledge Editing Benchmark Emphasizing Modality Consistency Junzhe Zhang Huixuan Zhang Xunjian Yin Baizhou Huang Xu Zhang Xinyu Hu Xiaojun Wan 67 11 0 19 Jun 2024
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning Bingchen Zhao Yongshuo Zong Letian Zhang Timothy Hospedales VLM 118 19 0 18 Jun 2024
Automatic benchmarking of large multimodal models via iterative experiment programming Alessandro Conti Enrico Fini Paolo Rota Yiming Wang Massimiliano Mancini Elisa Ricci 107 1 0 18 Jun 2024
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens Anas Awadalla Le Xue Oscar Lo Manli Shu Hannah Lee ... Silvio Savarese Caiming Xiong Ran Xu Yejin Choi Ludwig Schmidt 130 28 0 17 Jun 2024
MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model Jiahao Huo Yibo Yan Boren Hu Yutao Yue Xuming Hu LRM MLLM 104 8 0 17 Jun 2024
SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad CoGe 94 12 0 17 Jun 2024
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models Chenyu Zhou Mengdan Zhang Peixian Chen Chaoyou Fu Yunhang Shen Xiawu Zheng Xing Sun Rongrong Ji VLM 79 4 0 14 Jun 2024
First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models Enming Zhang Ruobing Yao Huanyong Liu Junhui Yu Jiale Wang ELM LRM 93 0 0 14 Jun 2024
SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering Zhe Yang Wenrui Li Guanghui Cheng Mamba 76 1 0 14 Jun 2024
Towards Multilingual Audio-Visual Question Answering Orchid Chetia Phukan Priyabrata Mallick Swarup Ranjan Behera Aalekhya Satya Narayani Arun Balaji Buduru Rajesh Sharma 98 0 0 13 Jun 2024
Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryoo Donghyun Kim Michael S. Ryoo 162 25 0 13 Jun 2024
MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases Rithesh Murthy Liangwei Yang Juntao Tan Tulika Awalgaonkar Yilun Zhou ... Zuxin Liu Ming Zhu Huan Wang Caiming Xiong Silvio Savarese 78 6 0 12 Jun 2024
cPAPERS: A Dataset of Situated and Multimodal Interactive Conversations in Scientific Papers Anirudh S. Sundar Jin Xu William Gay Christopher Richardson Larry Heck 110 1 0 12 Jun 2024
An Image is Worth 32 Tokens for Reconstruction and Generation Qihang Yu Mark Weber XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen VLM ViT 172 104 0 11 Jun 2024
Situational Awareness Matters in 3D Vision Language Reasoning Yunze Man Liang-Yan Gui Yu-Xiong Wang 91 18 0 11 Jun 2024
MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models Tianle Gu Zeyang Zhou Kexin Huang Dandan Liang Yixu Wang ... Keqing Wang Yujiu Yang Yan Teng Yu Qiao Yingchun Wang ELM 89 19 0 11 Jun 2024
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark David Romero Chenyang Lyu Haryo Akbarianto Wibowo Teresa Lynn Injy Hamed ... Oana Ignat Joan Nwatu Rada Mihalcea Thamar Solorio Alham Fikri Aji 117 43 0 10 Jun 2024
VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text Tianyu Zhang Suyuchen Wang Lu Li Ge Zhang Perouz Taslakian Sai Rajeswar Jie Fu Bang Liu Yoshua Bengio 116 5 0 10 Jun 2024
Stealthy Targeted Backdoor Attacks against Image Captioning Wenshu Fan Hongwei Li Wenbo Jiang Meng Hao Shui Yu Xiao Zhang DiffM 65 6 0 09 Jun 2024
ChatSR: Multimodal Large Language Models for Scientific Formula Discovery Yanjie Li Weijun Li Lina Yu Min Wu Jingyi Liu Wenqiang Li Shu Wei Yusong Deng OffRL 96 3 0 08 Jun 2024
Text-Guided Alternative Image Clustering Andreas Stephan Lukas Miklautz Collin Leiber Pedro Henrique Luz de Araujo Dominik Répás Claudia Plant Benjamin Roth VLM 68 0 0 07 Jun 2024
What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models Enis Berk Çoban Michael I. Mandel Johanna Devaney AuLLM LRM 79 0 0 07 Jun 2024
Understanding Information Storage and Transfer in Multi-modal Large Language Models Samyadeep Basu Martin Grayson C. Morrison Besmira Nushi Soheil Feizi Daniela Massiceti 93 12 0 06 Jun 2024
From Tissue Plane to Organ World: A Benchmark Dataset for Multimodal Biomedical Image Registration using Deep Co-Attention Networks Yifeng Wang Weipeng Li Thomas Pearce Haohan Wang OOD 45 0 0 06 Jun 2024
Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search Xin Wang Fangfang Liu Zheng Li Caili Guo 105 1 0 06 Jun 2024
OCCAM: Towards Cost-Efficient and Accuracy-Aware Classification Inference Dujian Ding Bicheng Xu L. Lakshmanan VLM 114 2 0 06 Jun 2024
HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits Tim Franzmeyer Aleksandar Shtedritski Samuel Albanie Philip Torr João F. Henriques Jakob N. Foerster 54 1 0 05 Jun 2024
Balancing Performance and Efficiency in Zero-shot Robotic Navigation Dmytro Kuzmenko N. Shvai LM&Ro 76 0 0 05 Jun 2024
Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment Wenliang Zhong Wenyi Wu Qi Li Rob Barton Boxin Du Shioulin Sam Karim Bouyarmane Ismail B. Tutar Junzhou Huang 90 3 0 05 Jun 2024
Translation Deserves Better: Analyzing Translation Artifacts in Cross-lingual Visual Question Answering Yujin Baek Koanho Lee Hyesu Lim Jaeseok Kim Junmo Park Yu-Jung Heo Du-Seong Chang Jaegul Choo 38 3 0 04 Jun 2024
CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models Junho Kim Hyunjun Kim Yeonju Kim Yong Man Ro MLLM 117 16 0 04 Jun 2024
HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model Yu Tian Tianqi Shao Tsukasa Demizu Xuyang Wu Hsin-Tai Wu 73 3 0 04 Jun 2024
GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen ViT 168 23 0 03 Jun 2024
Selectively Answering Visual Questions Julian Martin Eisenschlos Hernán Maina Guido Ivetta Luciana Benotti 88 0 0 03 Jun 2024
OLIVE: Object Level In-Context Visual Embeddings Timothy Ossowski Junjie Hu OCL VLM 101 0 0 02 Jun 2024