v1v2v3v4v5v6v7 (latest)

VQA: Visual Question Answering

3 May 2015

Devi Parikh

Papers citing "VQA: Visual Question Answering"

50 / 2,957 papers shown

Title
LLaVA-SpaceSGG: Visual Instruct Tuning for Open-vocabulary Scene Graph Generation with Enhanced Spatial Relations Mingjie Xu Mengyang Wu Yuzhi Zhao Jason Chun Lok Li Weifeng Ou LRM SyDa VLM 129 4 0 09 Dec 2024
An Entailment Tree Generation Approach for Multimodal Multi-Hop Question Answering with Mixture-of-Experts and Iterative Feedback Mechanism Qing Zhang Haocheng Lv Jie Liu Zheyu Chen Jianyong Duan Hao Wang Li He Mingying Xv 121 2 0 08 Dec 2024
Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable Events Aditya Chinchure Sahithya Ravi R. Ng Vered Shwartz Boyang Albert Li Leonid Sigal ReLM LRM VLM 178 3 0 07 Dec 2024
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora Michael Y. Hu Aaron Mueller Candace Ross Adina Williams Tal Linzen Chengxu Zhuang Ryan Cotterell Leshem Choshen Alex Warstadt Ethan Gotlieb Wilcox 180 14 0 06 Dec 2024
MegaCOIN: Enhancing Medium-Grained Color Perception for Vision-Language Models Ming-Chang Chiu Shicheng Wen Pin-Yu Chen Xuezhe Ma 142 1 0 05 Dec 2024
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios Lu Qiu Yuying Ge Yi Chen Yixiao Ge Ying Shan Xihui Liu LLMAG LRM 211 8 0 05 Dec 2024
Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features Chancharik Mitra Brandon Huang Tianning Chai Zhiqiu Lin Assaf Arbelle Rogerio Feris Leonid Karlinsky Trevor Darrell Deva Ramanan Roei Herzig VLM 391 4 0 28 Nov 2024
Abductive Symbolic Solver on Abstraction and Reasoning Corpus Mintaek Lim Seokki Lee Liyew Woletemaryam Abitew Sundong Kim 164 1 0 27 Nov 2024
VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis Donggoo Kang Dasol Jeong Hyunmin Lee Sangwoo Park Hasil Park Sunkyu Kwon Yeongjoon Kim Joonki Paik MLLM VLM 148 0 0 27 Nov 2024
Evaluating Vision-Language Models as Evaluators in Path Planning Mohamed Aghzal Xiang Yue Erion Plaku Ziyu Yao LRM 230 1 0 27 Nov 2024
CoA: Chain-of-Action for Generative Semantic Labels Meng Wei Zhongnian Li Peng Ying Xinzheng Xu VLM 119 0 0 26 Nov 2024
Task Progressive Curriculum Learning for Robust Visual Question Answering Ahmed Akl Abdelwahed Khamis Zhe Wang Ali Cheraghian Sara Khalifa Kewen Wang OOD 123 0 0 26 Nov 2024
Puzzle Similarity: A Perceptually-guided Cross-Reference Metric for Artifact Detection in 3D Scene Reconstructions Nicolai Hermann Jorge Condor Piotr Didyk 3DV 193 0 0 26 Nov 2024
MOSABench: Multi-Object Sentiment Analysis Benchmark for Evaluating Multimodal Large Language Models Understanding of Complex Image Shangwen Wang Chengxiang He Huijun Liu Shan Zhao Chengyu Wang ... Xiaopeng Li Qian Wan Jun Ma Jie Yu Xiaoguang Mao VLM 153 2 0 25 Nov 2024
ENCLIP: Ensembling and Clustering-Based Contrastive Language-Image Pretraining for Fashion Multimodal Search with Limited Data and Low-Quality Images Prithviraj Purushottam Naik Rohit Agarwal VLM CLIP 164 0 0 25 Nov 2024
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics Chan Hee Song Valts Blukis Jonathan Tremblay Stephen Tyree Yu-Chuan Su Stan Birchfield 243 20 0 25 Nov 2024
ResCLIP: Residual Attention for Training-free Dense Vision-language Inference Yuhang Yang Jinhong Deng Wen Li Lixin Duan VLM 108 1 0 24 Nov 2024
Creating Scalable AGI: the Open General Intelligence Framework Daniel A. Dollinger Michael Singleton AI4CE 81 0 0 24 Nov 2024
Text-Guided Coarse-to-Fine Fusion Network for Robust Remote Sensing Visual Question Answering Zhicheng Zhao Changfu Zhou Yu Zhang Chenglong Li Xiaoliang Ma Jin Tang 137 0 0 24 Nov 2024
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation Sule Bai Yong-Jin Liu Yifei Han Haoji Zhang Yansong Tang VLM 325 8 0 24 Nov 2024
VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding Jiaqi Wang Yifei Gao Jitao Sang MLLM 220 2 0 24 Nov 2024
Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions Shezheng Song 84 0 0 23 Nov 2024
Benchmarking Multimodal Models for Ukrainian Language Understanding Across Academic and Cultural Domains Yurii Paniv Artur Kiulian Dmytro Chaplynskyi M. Khandoga Anton Polishko Tetiana Bas Guillermo Gabrielli 103 1 0 22 Nov 2024
VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge Vishwesh Nath Wenqi Li Dong Yang Andriy Myronenko Mingxin Zheng ... Holger Roth Daguang Xu Baris Turkbey Holger Roth Daguang Xu VLM 193 7 0 19 Nov 2024
A Comprehensive Survey on Visual Question Answering Datasets and Algorithms Raihan Kabir Naznin Haque Md. Saiful Islam Marium-E. Jannat CoGe 85 1 0 17 Nov 2024
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization Hongrui Jia Chaoya Jiang Haiyang Xu Wei Ye Mengfan Dong Ming Yan Ji Zhang Fei Huang Shikun Zhang MLLM 147 3 0 17 Nov 2024
VidComposition: Can MLLMs Analyze Compositions in Compiled Videos? Yunlong Tang Junjia Guo Hang Hua Susan Liang Mingqian Feng ... Chao Huang Jing Bi Zeliang Zhang Pooyan Fazli Chenliang Xu CoGe 147 11 0 17 Nov 2024
Memory-Augmented Multimodal LLMs for Surgical VQA via Self-Contained Inquiry Wenjun Hou Yi Cheng Kaishuai Xu Yan Hu Wenjie Li Jiang-Dong Liu 65 1 0 17 Nov 2024
Llama Guard 3 Vision: Safeguarding Human-AI Image Understanding Conversations Jianfeng Chi Ujjwal Karn Hongyuan Zhan Eric Michael Smith Javier Rando Yiming Zhang Kate Plawiak Zacharie Delpierre Coudert Kartikeya Upasani Mahesh Pasupuleti MLLM 3DH 124 32 0 15 Nov 2024
Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning Jingru Yang Huan Yu Yang Jingxin C. Xu Yin Biao Yu Sun Shengfeng He 53 1 0 15 Nov 2024
Multimodal Instruction Tuning with Hybrid State Space Models Jianing Zhou Han Li Shuai Zhang Ning Xie Ruijie Wang Xiaohan Nie Sheng Liu Lingyun Wang 79 0 0 13 Nov 2024
SparrowVQE: Visual Question Explanation for Course Content Understanding Jialu Li Manish Kumar Thota Ruslan Gokhman Radek Holik Youshan Zhang 103 1 0 12 Nov 2024
Renaissance: Investigating the Pretraining of Vision-Language Encoders Clayton Fields C. Kennington VLM 59 0 0 11 Nov 2024
HourVideo: 1-Hour Video-Language Understanding Keshigeyan Chandrasegaran Agrim Gupta Lea M. Hadzic Taran Kota Jimming He Cristobal Eyzaguirre Zane Durante Manling Li Jiajun Wu L. Fei-Fei VLM 108 49 0 07 Nov 2024
TAP-VL: Text Layout-Aware Pre-training for Enriched Vision-Language Models Jonathan Fhima Elad Ben Avraham Oren Nuriel Yair Kittenplon Roy Ganz Aviad Aberdam Ron Litman VLM 67 1 0 07 Nov 2024
No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 Languages Youssef Mohamed Runjia Li Ibrahim Said Ahmad Kilichbek Haydarov Philip Torr Kenneth Church Mohamed Elhoseiny VLM 94 11 0 06 Nov 2024
VLA-3D: A Dataset for 3D Semantic Scene Understanding and Navigation Haochen Zhang Nader Zantout Pujith Kachana Zongyuan Wu Ji Zhang Wenshan Wang 3DV LM&Ro 86 6 0 05 Nov 2024
MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning Ziliang Gan Yu Lu D. Zhang Haohan Li Che Liu ... Haipang Wu Chaoyou Fu Z. Xu Rongjunchen Zhang Yong Dai 106 13 0 05 Nov 2024
INQUIRE: A Natural World Text-to-Image Retrieval Benchmark Edward Vendrow Omiros Pantazis Alexander Shepard Gabriel J. Brostow Kate E. Jones Oisin Mac Aodha Sara Beery Grant Van Horn VLM 109 7 0 04 Nov 2024
One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering Deepayan Das Davide Talon Massimiliano Mancini Yiming Wang Elisa Ricci 128 0 0 04 Nov 2024
Goal-Oriented Semantic Communication for Wireless Visual Question Answering Sige Liu Nan Li Yansha Deng Tony Q. S. Quek 78 0 0 03 Nov 2024
Right this way: Can VLMs Guide Us to See More to Answer Questions? Li Liu Diji Yang Sijia Zhong Kalyana Suma Sree Tholeti Lei Ding Yi Zhang Leilani H. Gilpin 134 3 0 01 Nov 2024
TurtleBench: A Visual Programming Benchmark in Turtle Geometry Sina Rismanchian Yasaman Razeghi Sameer Singh Shayan Doroudi 131 2 0 31 Oct 2024
Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map Xinyuan Chang Maixuan Xue Xinran Liu Zheng Pan Xing Wei 215 2 0 31 Oct 2024
Robotic State Recognition with Image-to-Text Retrieval Task of Pre-Trained Vision-Language Model and Black-Box Optimization Kento Kawaharazuka Yoshiki Obinata Naoaki Kanazawa Kei Okada Masayuki Inaba 68 0 0 30 Oct 2024
SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset Ngoc Dung Huynh Mohamed Reda Bouadjenek Sunil Aryal Imran Razzak Hakim Hacid 83 0 0 30 Oct 2024
Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models Donghoon Kim Gusang Lee Kyuhong Shim B. Shim 97 1 0 29 Oct 2024
Improving Generalization in Visual Reasoning via Self-Ensemble Tien-Huy Nguyen Quang-Khai Tran Anh-Tuan Quang-Hoang VLM LRM 122 6 0 28 Oct 2024
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? Han Bao Yue Huang Yanbo Wang Jiayi Ye Xiangqi Wang Preslav Nakov Mohamed Elhoseiny Wei Wei Mohamed Elhoseiny Xiangliang Zhang 109 11 0 28 Oct 2024
Sensor2Text: Enabling Natural Language Interactions for Daily Activity Tracking Using Wearable Sensors Wenqiang Chen Jiaxuan Cheng Leyao Wang Wei Zhao Wojciech Matusik 126 2 0 26 Oct 2024