Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA

27 June 2024

Papers citing "Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA"

15 / 15 papers shown

Title
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning Wenliang Dai Junnan Li Dongxu Li A. M. H. Tiong Junqi Zhao Weisheng Wang Boyang Albert Li Pascale Fung Steven C. H. Hoi MLLM VLM 139 2,098 0 11 May 2023
A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA Yangyang Guo Liqiang Nie Yongkang Wong Yebin Liu Zhiyong Cheng Mohan S. Kankanhalli 113 40 0 30 Jun 2022
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge Dustin Schwenk Apoorv Khandelwal Christopher Clark Kenneth Marino Roozbeh Mottaghi 74 554 0 03 Jun 2022
KAT: A Knowledge Augmented Transformer for Vision-and-Language Liangke Gui Borui Wang Qiuyuan Huang Alexander G. Hauptmann Yonatan Bisk Jianfeng Gao 68 159 0 16 Dec 2021
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 256 422 0 10 Sep 2021
MMBERT: Multimodal BERT Pretraining for Improved Medical VQA Yash Khare Viraj Bagal Minesh Mathew Adithi Devi U. Priyakumar C. V. Jawahar MedIm 75 136 0 03 Apr 2021
Multi-Modal Answer Validation for Knowledge-Based VQA Jialin Wu Jiasen Lu Ashish Sabharwal Roozbeh Mottaghi 152 145 0 23 Mar 2021
KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA Kenneth Marino Xinlei Chen Devi Parikh Abhinav Gupta Marcus Rohrbach 111 186 0 20 Dec 2020
Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding Qingxing Cao Bailin Li Xiaodan Liang Keze Wang Liang Lin 84 36 0 14 Dec 2020
Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering Zihao Zhu Jiahao Yu Yujing Wang Yajing Sun Yue Hu Qi Wu 93 128 0 16 Jun 2020
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 553 42,639 0 03 Dec 2019
Deep Modular Co-Attention Networks for Visual Question Answering Zhou Yu Jun Yu Yuhao Cui Dacheng Tao Q. Tian 89 808 0 25 Jun 2019
Modeling Relational Data with Graph Convolutional Networks Michael Schlichtkrull Thomas Kipf Peter Bloem Rianne van den Berg Ivan Titov Max Welling GNN 194 4,837 0 17 Mar 2017
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 355 3,273 0 02 Dec 2016
FVQA: Fact-based Visual Question Answering Peng Wang Qi Wu Chunhua Shen Anton van den Hengel A. Dick CoGe 87 462 0 17 Jun 2016