Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering

13 December 2018

Papers citing "Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering"

23 / 73 papers shown

Title
Visual Question Answering on Image Sets Ankan Bansal Yuting Zhang Rama Chellappa CoGe 16 40 0 27 Aug 2020
VLANet: Video-Language Alignment Network for Weakly-Supervised Video Moment Retrieval Minuk Ma Sunjae Yoon Junyeong Kim Youngjoon Lee Sunghun Kang Chang D. Yoo 46 78 0 24 Aug 2020
AiR: Attention with Reasoning Capability Shi Chen Ming Jiang Jinhui Yang Qi Zhao LRM 13 36 0 28 Jul 2020
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos Shaoxiang Chen Wenhao Jiang Wei Liu Yu-Gang Jiang 25 101 0 28 Jul 2020
REXUP: I REason, I EXtract, I UPdate with Structured Compositional Reasoning for Visual Question Answering Siwen Luo S. Han Kaiyuan Sun Josiah Poon CoGe LRM ReLM 26 4 0 27 Jul 2020
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers Shijie Geng Peng Gao Moitreya Chatterjee Chiori Hori Jonathan Le Roux Yongfeng Zhang Hongsheng Li A. Cherian 27 11 0 08 Jul 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 35 489 0 11 Jun 2020
Character Matters: Video Story Understanding with Character-Aware Relations Shijie Geng Ji Zhang Zuohui Fu Peng Gao Hang Zhang Gerard de Melo 18 11 0 09 May 2020
Normalized and Geometry-Aware Self-Attention Network for Image Captioning Longteng Guo Jing Liu Xinxin Zhu Peng Yao Shichen Lu Hanqing Lu ViT 135 189 0 19 Mar 2020
CQ-VQA: Visual Question Answering on Categorized Questions Aakansha Mishra A. Anand Prithwijit Guha 33 6 0 17 Feb 2020
Weak Supervision helps Emergence of Word-Object Alignment and improves Vision-Language Tasks Corentin Kervadec G. Antipov M. Baccouche Christian Wolf 21 15 0 06 Dec 2019
Fastened CROWN: Tightened Neural Network Robustness Certificates Zhaoyang Lyu Ching-Yun Ko Zhifeng Kong Ngai Wong Dahua Lin Luca Daniel 38 67 0 02 Dec 2019
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue X. Jiang Jiahao Yu Zengchang Qin Yingying Zhuang Xingxing Zhang Yue Hu Qi Wu 23 70 0 17 Nov 2019
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
6D Pose Estimation with Correlation Fusion Yi Cheng Erik Cambria Ying Sun C. Acar Wei Jing Yan Wu Liyuan Li Cheston Tan Joo-Hwee Lim 45 15 0 24 Sep 2019
LXMERT: Learning Cross-Modality Encoder Representations from Transformers Hao Hao Tan Joey Tianyi Zhou VLM MLLM 99 2,456 0 20 Aug 2019
Attention on Attention for Image Captioning Lun Huang Wenmin Wang Jie Chen Xiao-Yong Wei 24 823 0 19 Aug 2019
Multimodal Unified Attention Networks for Vision-and-Language Interactions Zhou Yu Yuhao Cui Jun Yu Dacheng Tao Q. Tian 27 38 0 12 Aug 2019
Multi-modality Latent Interaction Network for Visual Question Answering Peng Gao Haoxuan You Zhanpeng Zhang Xiaogang Wang Hongsheng Li 25 82 0 10 Aug 2019
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks Jiasen Lu Dhruv Batra Devi Parikh Stefan Lee SSL VLM 105 3,630 0 06 Aug 2019
RUBi: Reducing Unimodal Biases in Visual Question Answering Rémi Cadène Corentin Dancette H. Ben-younes Matthieu Cord Devi Parikh CML 19 369 0 24 Jun 2019
Language-Conditioned Graph Networks for Relational Reasoning Ronghang Hu Anna Rohrbach Trevor Darrell Kate Saenko 31 171 0 10 May 2019
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 167 1,465 0 06 Jun 2016