v1v2v3v4v5v6v7 (latest)

VQA: Visual Question Answering

3 May 2015

Devi Parikh

Papers citing "VQA: Visual Question Answering"

50 / 2,957 papers shown

Title
CS1QA: A Dataset for Assisting Code-based Question Answering in an Introductory Programming Course Changyoon Lee Yeon Seonwoo Alice Oh 78 11 0 26 Oct 2022
VLC-BERT: Visual Question Answering with Contextualized Commonsense Knowledge Sahithya Ravi Aditya Chinchure Leonid Sigal Renjie Liao Vered Shwartz 75 29 0 24 Oct 2022
Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision Tong Wang Jorma T. Laaksonen T. Langer Heikki Arponen Tom E. Bishop VLM 69 6 0 24 Oct 2022
Multilingual Multimodal Learning with Machine Translated Text Chen Qiu Dan Oneaţă Emanuele Bugliarello Stella Frank Desmond Elliott 123 15 0 24 Oct 2022
Towards Unifying Reference Expression Generation and Comprehension Duo Zheng Tao Kong Ya Jing Jiaan Wang Xiaojie Wang ObjD 64 6 0 24 Oct 2022
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding Jiaming Chen Weihua Luo Ran Song Xiaolin K. Wei Lin Ma Wei Emma Zhang 3DV 99 6 0 22 Oct 2022
Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation Xueliang Zhao Yuxuan Wang Chongyang Tao Chenshuo Wang Dongyan Zhao 71 6 0 22 Oct 2022
Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination Yue Yang Wenlin Yao Hongming Zhang Xiaoyang Wang Dong Yu Jianshu Chen VLM 99 22 0 21 Oct 2022
WikiWhy: Answering and Explaining Cause-and-Effect Questions Matthew Ho Aditya Sharma Justin Chang Michael Stephen Saxon Sharon Levy Yujie Lu William Yang Wang ReLM KELM LRM 163 19 0 21 Oct 2022
Do Vision-and-Language Transformers Learn Grounded Predicate-Noun Dependencies? Mitja Nikolaus Emmanuelle Salin Stéphane Ayache Abdellah Fourtassi Benoit Favre 88 14 0 21 Oct 2022
Fine-grained Semantic Alignment Network for Weakly Supervised Temporal Language Grounding Yuechen Wang Wen-gang Zhou Houqiang Li AI4TS 63 13 0 21 Oct 2022
Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text Generation Yu Zhao Jianguo Wei Zhichao Lin Yueheng Sun Meishan Zhang Hao Fei 79 16 0 20 Oct 2022
TOIST: Task Oriented Instance Segmentation Transformer with Noun-Pronoun Distillation Pengfei Li Beiwen Tian Yongliang Shi Xiaoxue Chen Hao Zhao Guyue Zhou Ya Zhang 125 22 0 19 Oct 2022
LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine Translation Hongcheng Guo Jiaheng Liu Haoyang Huang Jian Yang Zhoujun Li Dongdong Zhang Zheng Cui Furu Wei 93 22 0 19 Oct 2022
CPL: Counterfactual Prompt Learning for Vision and Language Models Xuehai He Diji Yang Weixi Feng Tsu-Jui Fu Arjun Reddy Akula Varun Jampani P. Narayana Sugato Basu William Yang Wang Xinze Wang VPVLM VLM 100 15 0 19 Oct 2022
Dense but Efficient VideoQA for Intricate Compositional Reasoning Jihyeon Janel Lee Wooyoung Kang Eun-Sol Kim CoGe 59 4 0 19 Oct 2022
Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual Question Answering Jialin Wu Raymond J. Mooney RALM 140 11 0 18 Oct 2022
Detecting and analyzing missing citations to published scientific entities Jialiang Lin Yao Yu Jia-Qi Song X. Shi 52 4 0 18 Oct 2022
ULN: Towards Underspecified Vision-and-Language Navigation Weixi Feng Tsu-Jui Fu Yujie Lu William Yang Wang 118 5 0 18 Oct 2022
Probing Cross-modal Semantics Alignment Capability from the Textual Perspective Zheng Ma Shi Zong Mianzhi Pan Jianbing Zhang Shujian Huang Xinyu Dai Jiajun Chen 61 4 0 18 Oct 2022
Scratching Visual Transformer's Back with Uniform Attention Nam Hyeon-Woo Kim Yu-Ji Byeongho Heo Doonyoon Han Seong Joon Oh Tae-Hyun Oh 563 23 0 16 Oct 2022
SQA3D: Situated Question Answering in 3D Scenes Xiaojian Ma Silong Yong Zilong Zheng Qing Li Yitao Liang Song-Chun Zhu Siyuan Huang LM&Ro 97 160 0 14 Oct 2022
MAPL: Parameter-Efficient Adaptation of Unimodal Pre-Trained Models for Vision-Language Few-Shot Prompting Oscar Manas Pau Rodríguez López Saba Ahmadi Aida Nematzadeh Yash Goyal Aishwarya Agrawal VLM VPVLM 65 51 0 13 Oct 2022
Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets Anurag Roy David Johnson Ekka Saptarshi Ghosh Abir Das 62 1 0 13 Oct 2022
OpenCQA: Open-ended Question Answering with Charts Shankar Kantharaj Do Xuan Long Rixie Tiffany Ko Leong J. Tan Enamul Hoque Shafiq Joty 85 53 0 12 Oct 2022
Text-Derived Knowledge Helps Vision: A Simple Cross-modal Distillation for Video-based Action Anticipation Sayontan Ghosh Tanvi Aggarwal Minh Hoai Niranjan Balasubramanian VLM 90 4 0 12 Oct 2022
Understanding Embodied Reference with Touch-Line Transformer Yongqian Li Xiaoxue Chen Hao Zhao Jiangtao Gong Guyue Zhou Federico Rossano Yixin Zhu 174 17 0 11 Oct 2022
Transformer-based Localization from Embodied Dialog with Large-scale Pre-training Meera Hahn James M. Rehg LM&Ro 104 4 0 10 Oct 2022
Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut Learning in VQA Q. Si Fandong Meng Mingyu Zheng Zheng Lin Yuanxin Liu Peng Fu Yanan Cao Weiping Wang Jie Zhou 81 23 0 10 Oct 2022
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning Q. Si Yuanxin Liu Fandong Meng Zheng Lin Peng Fu Yanan Cao Weiping Wang Jie Zhou 88 24 0 10 Oct 2022
Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing Tim Siebert Kai Norman Clasen Mahdyar Ravanbakhsh Begüm Demir 66 24 0 10 Oct 2022
VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment Shraman Pramanick Li Jing Sayan Nag Jiachen Zhu Hardik Shah Yann LeCun Ramalingam Chellappa 84 22 0 09 Oct 2022
EgoTaskQA: Understanding Human Tasks in Egocentric Videos Baoxiong Jia Ting Lei Song-Chun Zhu Siyuan Huang EgoV 92 65 0 08 Oct 2022
Retrieval Augmented Visual Question Answering with Outside Knowledge Weizhe Lin Bill Byrne RALM 114 77 0 07 Oct 2022
Video Referring Expression Comprehension via Transformer with Content-aware Query Ji Jiang Meng Cao Tengtao Song Yuexian Zou 96 5 0 06 Oct 2022
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text Wenhu Chen Hexiang Hu Xi Chen Pat Verga William W. Cohen RALM 102 160 0 06 Oct 2022
Vision+X: A Survey on Multimodal Learning in the Light of Data Ye Zhu Yuehua Wu N. Sebe Yan Yan 119 19 0 05 Oct 2022
Locate before Answering: Answer Guided Question Localization for Video Question Answering Tianwen Qian Ran Cui Jingjing Chen Pai Peng Xiao-Wei Guo Yu-Gang Jiang 110 18 0 05 Oct 2022
Affection: Learning Affective Explanations for Real-World Visual Data Panos Achlioptas M. Ovsjanikov Leonidas Guibas Sergey Tulyakov 109 12 0 04 Oct 2022
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning Xu Yang Hanwang Zhang Chongyang Gao Jianfei Cai MLLM 91 10 0 04 Oct 2022
Extending Compositional Attention Networks for Social Reasoning in Videos Christina Sartzetaki Georgios Paraskevopoulos Alexandros Potamianos LRM 53 3 0 03 Oct 2022
A Dual-Attention Learning Network with Word and Sentence Embedding for Medical Visual Question Answering Xiaofei Huang Hongfang Gong MedIm 111 14 0 01 Oct 2022
Domain-Unified Prompt Representations for Source-Free Domain Generalization Hongjing Niu Hanting Li Feng Zhao Bin Li VLM 117 19 0 29 Sep 2022
TVLT: Textless Vision-Language Transformer Zineng Tang Jaemin Cho Yixin Nie Joey Tianyi Zhou VLM 137 31 0 28 Sep 2022
Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image Generation Xintian Wu Hanbin Zhao Liangli Zheng Shouhong Ding Xi Li 67 15 0 28 Sep 2022
A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective Chaoqi Chen Yushuang Wu Qiyuan Dai Hong-Yu Zhou Mutian Xu Sibei Yang Xiaoguang Han Yizhou Yu ViT MedIm AI4CE 139 82 0 27 Sep 2022
RepsNet: Combining Vision with Language for Automated Medical Reports A. Tanwani Joelle Barral Daniel Freedman MedIm 93 23 0 27 Sep 2022
Collaboration of Pre-trained Models Makes Better Few-shot Learner Renrui Zhang Bohao Li Wei Zhang Hao Dong Hongsheng Li Peng Gao Yu Qiao VLM 114 7 0 25 Sep 2022
Towards Explainable 3D Grounded Visual Question Answering: A New Benchmark and Strong Baseline Lichen Zhao Daigang Cai Jing Zhang Lu Sheng Dong Xu Ruizhi Zheng Yinjie Zhao Lipeng Wang Xibo Fan 71 27 0 24 Sep 2022
Towards Faithful Model Explanation in NLP: A Survey Qing Lyu Marianna Apidianaki Chris Callison-Burch XAI 246 121 0 22 Sep 2022