v1v2v3v4v5v6v7 (latest)

VQA: Visual Question Answering

3 May 2015

Devi Parikh

Papers citing "VQA: Visual Question Answering"

50 / 2,957 papers shown

Title
Learning Functional Distributional Semantics with Visual Data Yinhong Liu Guy Edward Toh Emerson 49 2 0 22 Apr 2022
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks Zhecan Wang Noel Codella Yen-Chun Chen Luowei Zhou Xiyang Dai ... Jianwei Yang Haoxuan You Kai-Wei Chang Shih-Fu Chang Lu Yuan VLM OffRL 84 23 0 22 Apr 2022
Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering Y. Heo Eun-Sol Kim Woo Suk Choi Byoung-Tak Zhang 67 28 0 22 Apr 2022
Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension Peihan Miao Wei Su Gaoang Wang Xuewei Li Xi Li ObjD 82 10 0 21 Apr 2022
Attention in Reasoning: Dataset, Analysis, and Modeling Shi Chen Ming Jiang Jinhui Yang Qi Zhao LRM 50 3 0 20 Apr 2022
Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval Mustafa Shukor Guillaume Couairon Asya Grechka Matthieu Cord ViT 89 19 0 20 Apr 2022
Clotho-AQA: A Crowdsourced Dataset for Audio Question Answering Samuel Lipping Parthasaarathy Sudarsanam Konstantinos Drossos Tuomas Virtanen 104 64 0 20 Apr 2022
K-LITE: Learning Transferable Visual Models with External Knowledge Sheng Shen Chunyuan Li Xiaowei Hu Jianwei Yang Yujia Xie ... Ce Liu Kurt Keutzer Trevor Darrell Anna Rohrbach Jianfeng Gao CLIP VLM 72 85 0 20 Apr 2022
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models Chunyuan Li Haotian Liu Liunian Harold Li Pengchuan Zhang J. Aneja ... Ping Jin Houdong Hu Zicheng Liu Yong Jae Lee Jianfeng Gao 108 153 0 19 Apr 2022
End-to-end Dense Video Captioning as Sequence Generation Wanrong Zhu Bo Pang Ashish V. Thapliyal William Yang Wang Radu Soricut DiffM 61 34 0 18 Apr 2022
A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of One-Stage Referring Expression Comprehension Gen Luo Yiyi Zhou Jiamu Sun Xiaoshuai Sun Rongrong Ji ObjD 78 10 0 17 Apr 2022
Attention Mechanism based Cognition-level Scene Understanding Xuejiao Tang Tai Le Quy LRM 84 0 0 17 Apr 2022
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks Gen Luo Yiyi Zhou Xiaoshuai Sun Yan Wang Liujuan Cao Yongjian Wu Feiyue Huang Rongrong Ji ViT 64 47 0 16 Apr 2022
It is Okay to Not Be Okay: Overcoming Emotional Bias in Affective Image Captioning by Contrastive Data Collection Youssef Mohamed Faizan Farooq Khan Kilichbek Haydarov Mohamed Elhoseiny 59 33 0 15 Apr 2022
Image Captioning In the Transformer Age Yangliu Xu Li Li Haiyang Xu Songfang Huang Fei Huang Jianfei Cai ViT 59 6 0 15 Apr 2022
Optimal quadratic binding for relational reasoning in vector symbolic neural architectures Naoki Hiratani H. Sompolinsky 75 5 0 14 Apr 2022
Brainish: Formalizing A Multimodal Language for Intelligence and Consciousness Paul Pu Liang 78 6 0 14 Apr 2022
Probabilistic Compositional Embeddings for Multimodal Image Retrieval Andrei Neculai Yanbei Chen Zeynep Akata CoGe 138 33 0 12 Apr 2022
X-DETR: A Versatile Architecture for Instance-wise Vision-Language Tasks Zhaowei Cai Gukyeong Kwon Avinash Ravichandran Erhan Bas Zhuowen Tu Rahul Bhotika Stefano Soatto ObjD MLLM VLM 67 50 0 12 Apr 2022
Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog Shunyu Zhang X. Jiang Zequn Yang T. Wan Zengchang Qin 64 12 0 10 Apr 2022
On the Importance of Karaka Framework in Multi-modal Grounding Sai Kiran Gorthi R. Mamidi 49 1 0 09 Apr 2022
Unified Contrastive Learning in Image-Text-Label Space Jianwei Yang Chunyuan Li Pengchuan Zhang Bin Xiao Ce Liu Lu Yuan Jianfeng Gao VLM SSL 171 227 0 07 Apr 2022
Parameter-Efficient Abstractive Question Answering over Tables or Text Vaishali Pal Evangelos Kanoulas Maarten de Rijke LMTD 62 15 0 07 Apr 2022
Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross CoGe 162 429 0 07 Apr 2022
An Algebraic Approach to Learning and Grounding Johanna Björklund Adam Dahlgren Lindström F. Drewes 91 0 0 06 Apr 2022
Modeling Temporal-Modal Entity Graph for Procedural Multimodal Machine Comprehension Huibin Zhang Zhengkun Zhang Yao Zhang Jun Wang Yufan Li Ning Jiang Xinde Wei Zhenglu Yang 61 5 0 06 Apr 2022
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation Wangbo Zhao Kai Wang Xiangxiang Chu Fuzhao Xue Xinchao Wang Yang You 99 22 0 06 Apr 2022
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata LRM NAI 102 20 0 05 Apr 2022
SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering Vipul Gupta Zhuowan Li Adam Kortylewski Chenyu Zhang Yingwei Li Alan Yuille 90 46 0 05 Apr 2022
Question-Driven Graph Fusion Network For Visual Question Answering Yuxi Qian Yuncong Hu Ruonan Wang Fangxiang Feng Xiaojie Wang GNN 138 10 0 03 Apr 2022
Co-VQA : Answering by Interactive Sub Question Sequence Ruonan Wang Yuxi Qian Fangxiang Feng Xiaojie Wang Huixing Jiang LRM 75 17 0 02 Apr 2022
Learning Audio-Video Modalities from Image Captions Arsha Nagrani Paul Hongsuck Seo Bryan Seybold Anja Hauth Santiago Manén Chen Sun Cordelia Schmid CLIP 93 86 0 01 Apr 2022
SimVQA: Exploring Simulated Environments for Visual Question Answering Paola Cascante-Bonilla Hui Wu Letao Wang Rogerio Feris Vicente Ordonez 89 7 0 31 Mar 2022
Fine-Grained Visual Entailment Christopher Thomas Yipeng Zhang Shih-Fu Chang 138 6 0 29 Mar 2022
Balanced Multimodal Learning via On-the-fly Gradient Modulation Xiaokang Peng Yake Wei Andong Deng Dong Wang Di Hu 111 216 0 29 Mar 2022
Text2Pos: Text-to-Point-Cloud Cross-Modal Localization Manuel Kolmet Qunjie Zhou Aljosa Osep Laura Leal-Taixe 86 24 0 28 Mar 2022
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval S. Gorti Noël Vouitsis Junwei Ma Keyvan Golestan Anthony L. Caterini Animesh Garg Guangwei Yu 101 162 0 28 Mar 2022
Single-Stream Multi-Level Alignment for Vision-Language Pretraining Zaid Khan B. Vijaykumar Xiang Yu S. Schulter Manmohan Chandraker Y. Fu CLIP VLM 125 17 0 27 Mar 2022
Learning to Answer Questions in Dynamic Audio-Visual Scenarios Guangyao Li Yake Wei Yapeng Tian Chenliang Xu Ji-Rong Wen Di Hu 131 153 0 26 Mar 2022
Multi-modal Misinformation Detection: Approaches, Challenges and Opportunities S. Abdali Sina shaham Bhaskar Krishnamachari 124 24 0 25 Mar 2022
Bilaterally Slimmable Transformer for Elastic and Efficient Visual Question Answering Zhou Yu Zitian Jin Jun Yu Mingliang Xu Hongbo Wang Jianping Fan 75 4 0 24 Mar 2022
Fine-Grained Scene Graph Generation with Data Transfer Ao Zhang Yuan Yao Qián Chen Wei Ji Zhiyuan Liu Maosong Sun Tat-Seng Chua 119 94 0 22 Mar 2022
HOP: History-and-Order Aware Pre-training for Vision-and-Language Navigation Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peifeng Wang Qi Wu AI4TS 94 77 0 22 Mar 2022
WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models Shan Yuan Shuai Zhao Jiahong Leng Zhao Xue Hanyu Zhao Peiyu Liu Zheng Gong Wayne Xin Zhao Junyi Li Tang Jie VLM 65 5 0 22 Mar 2022
Remember Intentions: Retrospective-Memory-based Trajectory Prediction Chenxin Xu Wei Mao Wenjun Zhang Siheng Chen 119 125 0 22 Mar 2022
PACS: A Dataset for Physical Audiovisual CommonSense Reasoning Samuel Yu Peter Wu Paul Pu Liang Ruslan Salakhutdinov Louis-Philippe Morency LRM 129 16 0 21 Mar 2022
Context-Dependent Anomaly Detection with Knowledge Graph Embedding Models Nathan Vaska Kevin J. Leahy Victoria Helus 33 1 0 17 Mar 2022
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering Yang Ding Jing Yu Bangchang Liu Yue Hu Mingxin Cui Qi Wu 58 64 0 17 Mar 2022
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding Haojun Jiang Yuanze Lin Dongchen Han Shiji Song Gao Huang ObjD 107 54 0 16 Mar 2022
K-VQG: Knowledge-aware Visual Question Generation for Common-sense Acquisition Kohei Uehara Tatsuya Harada 98 10 0 15 Mar 2022