v1v2v3v4v5v6v7 (latest)

VQA: Visual Question Answering

3 May 2015

Devi Parikh

Papers citing "VQA: Visual Question Answering"

50 / 2,957 papers shown

Title
Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners Xuehai He Weixi Feng Tsu-Jui Fu Varun Jampani Arjun Reddy Akula P. Narayana Sugato Basu William Yang Wang Xinze Wang DiffM 114 8 0 18 May 2023
What You See is What You Read? Improving Text-Image Alignment Evaluation Michal Yarom Yonatan Bitton Soravit Changpinyo Roee Aharoni Jonathan Herzig Oran Lang E. Ofek Idan Szpektor EGVM 169 85 0 17 May 2023
Evaluating Object Hallucination in Large Vision-Language Models Yifan Li Yifan Du Kun Zhou Jinpeng Wang Wayne Xin Zhao Ji-Rong Wen MLLM LRM 385 816 0 17 May 2023
An Empirical Study on the Language Modal in Visual Question Answering Daowan Peng Wei Wei Xian-Ling Mao Yuanyuan Fu Dangyang Chen 77 4 0 17 May 2023
Probing the Role of Positional Information in Vision-Language Models Philipp J. Rösch Jindrich Libovický 65 8 0 17 May 2023
CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding Linhui Xiao Xiaoshan Yang Fang Peng Ming Yan Yaowei Wang Changsheng Xu ObjD VLM 121 31 0 15 May 2023
Document Understanding Dataset and Evaluation (DUDE) Jordy Van Landeghem Rubèn Pérez Tito Łukasz Borchmann Michal Pietruszka Pawel Józiak ... Bertrand Ackaert Ernest Valveny Matthew Blaschko Sien Moens Tomasz Stanislawek VGen 107 66 0 15 May 2023
Artificial intelligence to advance Earth observation: a perspective D. Tuia Konrad Schindler Begüm Demir Gustau Camps-Valls Xiao Xiang Zhu ... Mihai Datcu Jorge-Arnulfo Quiané-Ruiz Volker Markl Bertrand Le Saux Rochelle Schneider 122 12 0 15 May 2023
Semantic Composition in Visually Grounded Language Models Rohan Pandey CoGe 91 1 0 15 May 2023
Learning the Visualness of Text Using Large Vision-Language Models Gaurav Verma Ryan Rossi Chris Tensmeyer Jiuxiang Gu A. Nenkova VLM 71 0 0 11 May 2023
Combo of Thinking and Observing for Outside-Knowledge VQA Q. Si Yuchen Mo Zheng Lin Huishan Ji Weiping Wang 95 14 0 10 May 2023
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models Shan Zhong Zhongzhan Huang Wushao Wen Jinghui Qin Liang Lin 112 41 0 09 May 2023
A Multi-Modal Context Reasoning Approach for Conditional Inference on Joint Textual and Visual Clues Yunxin Li Baotian Hu Xinyu Chen Yuxin Ding Lin Ma Min Zhang LRM 93 15 0 08 May 2023
Scene Text Recognition with Image-Text Matching-guided Dictionary Jiajun Wei Hongjian Zhan X. Tu Yue Lu Umapada Pal VLM 48 0 0 08 May 2023
Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation Chaoya Jiang Wei Ye Haiyang Xu Miang yan Shikun Zhang Jie Zhang Fei Huang VLM 90 16 0 08 May 2023
Visual Causal Scene Refinement for Video Question Answering Yushen Wei Yang Liu Hongfei Yan Guanbin Li Liang Lin CML 96 25 0 07 May 2023
OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese Nghia Hieu Nguyen Duong T.D. Vo Kiet Van Nguyen Ngan Luu-Thuy Nguyen 82 20 0 07 May 2023
X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages Feilong Chen Minglun Han Haozhi Zhao Qingyang Zhang Jing Shi Shuang Xu Bo Xu MLLM 159 126 0 07 May 2023
Adaptive loose optimization for robust question answering Jie Ma Pinghui Wang Ze-you Wang Dechen Kong Min Hu Tingxu Han Jun Liu OOD 131 4 0 06 May 2023
Otter: A Multi-Modal Model with In-Context Instruction Tuning Yue Liu Yuanhan Zhang Liangyu Chen Jinghao Wang Jingkang Yang Ziwei Liu MLLM 85 522 0 05 May 2023
Analysis of Visual Question Answering Algorithms with attention model Param Ahir H. Diwanji 31 1 0 04 May 2023
Image Captioners Sometimes Tell More Than Images They See Honori Udo Takafumi Koshinaka VLM 27 4 0 04 May 2023
Fairness in AI Systems: Mitigating gender bias from language-vision models Lavisha Aggarwal Shruti Bhargava 72 5 0 03 May 2023
Visual Reasoning: from State to Transformation Xin Hong Yanyan Lan Liang Pang Jiafeng Guo Xueqi Cheng LRM 67 4 0 02 May 2023
VPGTrans: Transfer Visual Prompt Generator across LLMs Ao Zhang Hao Fei Yuan Yao Wei Ji Li Li Zhiyuan Liu Tat-Seng Chua MLLM VLM 92 89 0 02 May 2023
Multimodal Graph Transformer for Multimodal Question Answering Xuehai He Xin Eric Wang 103 9 0 30 Apr 2023
Interpreting Vision and Language Generative Models with Semantic Visual Priors Michele Cafagna L. Rojas-Barahona Kees van Deemter Albert Gatt FAtt VLM 63 3 0 28 Apr 2023
Retrieval-based Knowledge Augmented Vision Language Pre-training Jiahua Rao Zifei Shan Long Liu Yao Zhou Yuedong Yang VLM 163 14 0 27 Apr 2023
Programmatically Grounded, Compositionally Generalizable Robotic Manipulation Renhao Wang Jiayuan Mao Joy Hsu Hang Zhao Jiajun Wu Yang Gao LM&Ro 179 31 0 26 Apr 2023
A Symmetric Dual Encoding Dense Retrieval Framework for Knowledge-Intensive Visual Question Answering Alireza Salemi Juan Altmayer Pizzorno Hamed Zamani 38 15 0 26 Apr 2023
Grounding Classical Task Planners via Vision-Language Models Xiaohan Zhang Yan Ding S. Amiri Hao Yang Andy Kaminski Chad Esselink Shiqi Zhang 80 17 0 17 Apr 2023
VCD: Visual Causality Discovery for Cross-Modal Question Reasoning Yang Liu Guanbin Li Jingzhou Luo Liang Lin BDL LRM 108 5 0 17 Apr 2023
PDFVQA: A New Dataset for Real-World VQA on PDF Documents Yihao Ding Siwen Luo Hyunsuk Chung S. Han 105 18 0 13 Apr 2023
CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes Maria Parelli Alexandros Delitzas Nikolas Hars G. Vlassis Sotiris Anagnostidis Gregor Bachmann Thomas Hofmann CLIP 81 52 0 12 Apr 2023
DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment Lewei Yao Jianhua Han Xiaodan Liang Danqian Xu Wei Zhang Zhenguo Li Hang Xu VLM ObjD CLIP 128 79 0 10 Apr 2023
Multilingual Augmentation for Robust Visual Question Answering in Remote Sensing Images Zhenghang Yuan Lichao Mou Xiao Xiang Zhu 60 5 0 07 Apr 2023
Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions Jia-Hong Huang Modar Alfadly Guohao Li Marcel Worring OOD AAML 87 6 0 06 Apr 2023
Uncurated Image-Text Datasets: Shedding Light on Demographic Bias Noa Garcia Yusuke Hirota Yankun Wu Yuta Nakashima EGVM 88 57 0 06 Apr 2023
I2I: Initializing Adapters with Improvised Knowledge Tejas Srinivasan Furong Jia Mohammad Rostami Jesse Thomason CLL 111 6 0 04 Apr 2023
SC-ML: Self-supervised Counterfactual Metric Learning for Debiased Visual Question Answering Xinyao Shu Shiyang Yan Xu Yang Ziheng Wu Zhongfeng Chen Zhenyu Lu SSL 68 0 0 04 Apr 2023
Locate Then Generate: Bridging Vision and Language with Bounding Box for Scene-Text VQA Yongxin Zhu Ziqiang Liu Yukang Liang Xin Li Hao Liu Changcun Bao Linli Xu 62 7 0 04 Apr 2023
Vision-Language Models for Vision Tasks: A Survey Jingyi Zhang Jiaxing Huang Sheng Jin Shijian Lu VLM 169 553 0 03 Apr 2023
Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space Yuwei Sun H. Ochiai Jun Sakuma AAML 79 6 0 02 Apr 2023
Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior Understanding Xiang Zhang Taoyue Wang Xiaotian Li Huiyuan Yang L. Yin 131 10 0 31 Mar 2023
DIME-FM: DIstilling Multimodal and Efficient Foundation Models Ximeng Sun Pengchuan Zhang Peizhao Zhang Hardik Shah Kate Saenko Xide Xia VLM 109 22 0 31 Mar 2023
Self-Supervised Multimodal Learning: A Survey Yongshuo Zong Oisin Mac Aodha Timothy M. Hospedales SSL 125 50 0 31 Mar 2023
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research Xinhao Mei Chutong Meng Haohe Liu Qiuqiang Kong Tom Ko Chengqi Zhao Mark D. Plumbley Yuexian Zou Wenwu Wang 184 220 0 30 Mar 2023
A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision Lucas Beyer Bo Wan Gagan Madan Filip Pavetić Andreas Steiner ... Emanuele Bugliarello Tianlin Li Qihang Yu Liang-Chieh Chen Xiaohua Zhai 130 9 0 30 Mar 2023
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks Weicheng Kuo A. Piergiovanni Dahun Kim Xiyang Luo Benjamin Caine ... Luowei Zhou Andrew M. Dai Zhifeng Chen Claire Cui A. Angelova MLLM VLM 128 25 0 29 Mar 2023
Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models A. Maharana Amita Kamath Christopher Clark Joey Tianyi Zhou Aniruddha Kembhavi 87 3 0 28 Mar 2023