Question-Guided Hybrid Convolution for Visual Question Answering

8 August 2018

Shuang Li

Papers citing "Question-Guided Hybrid Convolution for Visual Question Answering"

33 / 33 papers shown

Title
Survey of Natural Language Processing for Education: Taxonomy, Systematic Review, and Future Trends Yunshi Lan Xinyuan Li Hanyue Du Xuesong Lu Ming Gao Weining Qian Aoying Zhou 106 4 0 15 Jan 2024
From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities Md Farhan Ishmam Md Sakib Hossain Shovon M. F. Mridha Nilanjan Dey 156 44 0 01 Nov 2023
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark Ashwin Kalyan ELM ReLM LRM 299 1,301 0 20 Sep 2022
DM $^2$ S $^2$ : Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention Shunsuke Kitada Yuki Iwazaki Riku Togashi Hitoshi Iyatomi 81 1 0 07 Sep 2022
Recent, rapid advancement in visual question answering architecture: a review V. Kodali Daniel Berleant 92 9 0 02 Mar 2022
Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in Visual Question Answering Jianjian Cao Xiameng Qin Sanyuan Zhao Jianbing Shen 72 21 0 14 Dec 2021
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning Pan Lu Liang Qiu Jiaqi Chen Tony Xia Yizhou Zhao Wei Zhang Zhou Yu Xiaodan Liang Song-Chun Zhu AIMat 167 206 0 25 Oct 2021
Towards Language-guided Visual Recognition via Dynamic Convolutions Gen Luo Yiyi Zhou Xiaoshuai Sun Yongjian Wu Yue Gao Rongrong Ji ObjD 98 19 0 17 Oct 2021
Fast Convergence of DETR with Spatially Modulated Co-Attention Peng Gao Minghang Zheng Xiaogang Wang Jifeng Dai Hongsheng Li ViT 91 308 0 05 Aug 2021
Dynamic Neural Networks: A Survey Yizeng Han Gao Huang Shiji Song Le Yang Honghui Wang Yulin Wang 3DH AI4TS AI4CE 146 658 0 09 Feb 2021
New Ideas and Trends in Deep Multimodal Content Understanding: A Review Wei Chen Weiping Wang Li Liu M. Lew VLM 174 33 0 16 Oct 2020
Contrastive Visual-Linguistic Pretraining Lei Shi Kai Shuang Shijie Geng Peng Su Zhengkai Jiang Peng Gao Zuohui Fu Gerard de Melo Sen Su VLM SSL CLIP 105 29 0 26 Jul 2020
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers Shijie Geng Peng Gao Moitreya Chatterjee Chiori Hori Jonathan Le Roux Yongfeng Zhang Hongsheng Li A. Cherian 101 11 0 08 Jul 2020
Location Sensitive Image Retrieval and Tagging Raul Gomez J. Gibert Lluís Gómez Dimosthenis Karatzas 113 4 0 07 Jul 2020
Extreme Low-Light Imaging with Multi-granulation Cooperative Networks Keqi Wang Peng Gao Guosheng Lin Qian Guo Y. Qian 56 4 0 16 May 2020
Character Matters: Video Story Understanding with Character-Aware Relations Shijie Geng Ji Zhang Zuohui Fu Peng Gao Hang Zhang Gerard de Melo 135 11 0 09 May 2020
Modulating Bottom-Up and Top-Down Visual Processing via Language-Conditional Filters .Ilker Kesen Ozan Arkan Can Erkut Erdem Aykut Erdem Deniz Yuret VLM 53 1 0 28 Mar 2020
Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering Lei Shi Shijie Geng Kai Shuang Chiori Hori Songxiang Liu Peng Gao Sen Su 85 11 0 03 Jan 2020
Learning Depth-Guided Convolutions for Monocular 3D Object Detection Mingyu Ding Yuqi Huo Hongwei Yi Zhe Wang Jianping Shi Zhiwu Lu Ping Luo 3DPC 113 317 0 10 Dec 2019
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue X. Jiang Jiahao Yu Zengchang Qin Yingying Zhuang Xingxing Zhang Yue Hu Qi Wu 90 70 0 17 Nov 2019
Cross Attention Network for Few-shot Classification Rui Hou Hong Chang Bingpeng Ma Shiguang Shan Xilin Chen 280 647 0 17 Oct 2019
Exploring Hate Speech Detection in Multimodal Publications Raul Gomez J. Gibert Lluís Gómez Dimosthenis Karatzas 96 234 0 09 Oct 2019
Multi-modality Latent Interaction Network for Visual Question Answering Peng Gao Haoxuan You Zhanpeng Zhang Xiaogang Wang Hongsheng Li 69 82 0 10 Aug 2019
Language-Conditioned Graph Networks for Relational Reasoning Ronghang Hu Anna Rohrbach Trevor Darrell Kate Saenko 85 175 0 10 May 2019
Question Guided Modular Routing Networks for Visual Question Answering Yanze Wu Qiang Sun Jianqi Ma Bin Li Yanwei Fu Yao Peng Xiangyang Xue 69 1 0 17 Apr 2019
Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing Xihui Liu Zihao Wang Jing Shao Xiaogang Wang Hongsheng Li ObjD 110 186 0 03 Mar 2019
FishNet: A Versatile Backbone for Image, Region, and Pixel Level Prediction Shuyang Sun Jiangmiao Pang Jianping Shi Shuai Yi Wanli Ouyang 119 101 0 11 Jan 2019
A^2-Net: Molecular Structure Estimation from Cryo-EM Density Volumes Kui Xu Zhe Wang Jianping Shi Hongsheng Li Q. Zhang 3DV 74 40 0 03 Jan 2019
Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering Peng Gao Zhengkai Jiang Haoxuan You Pan Lu Steven C. H. Hoi Xiaogang Wang Hongsheng Li AIMat 106 368 0 13 Dec 2018
PVRNet: Point-View Relation Neural Network for 3D Shape Recognition Haoxuan You Yifan Feng Xibin Zhao C. Zou Rongrong Ji Yue Gao 3DPC 71 68 0 02 Dec 2018
VQA with no questions-answers training B. Vatashsky S. Ullman 108 13 0 20 Nov 2018
PVNet: A Joint Convolutional Network of Point Cloud and Multi-View for 3D Shape Recognition Haoxuan You Yifan Feng Rongrong Ji Yue Gao 3DPC 117 172 0 23 Aug 2018
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering Pan Lu Lei Ji Wei Zhang Nan Duan M. Zhou Jianyong Wang CoGe 61 79 0 24 May 2018