Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation

17 September 2021

Feilong Chen

Fandong Meng

Xiuyi Chen

Peng Li

Jie Zhou

ArXiv PDF HTML

Papers citing "Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation"

31 / 31 papers shown

Title
KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue X. Jiang Siyi Du Zengchang Qin Yajing Sun Jiahao Yu 46 37 0 11 Aug 2020
DAM: Deliberation, Abandon and Memory Networks for Generating Detailed and Non-repetitive Responses in Visual Dialogue X. Jiang Jiahao Yu Yajing Sun Zengchang Qin Zihao Zhu Yue Hu Qi Wu MLLM 87 19 0 07 Jul 2020
History for Visual Dialog: Do we really need it? Shubham Agarwal Trung Bui Joon-Young Lee Ioannis Konstas Verena Rieser VLM 31 71 0 08 May 2020
VD-BERT: A Unified Vision and Dialog Transformer with BERT Yue Wang Shafiq Joty Michael R. Lyu Irwin King Caiming Xiong Guosheng Lin 57 104 0 28 Apr 2020
Iterative Context-Aware Graph Inference for Visual Dialog Dan Guo Haibo Wang Hanwang Zhang Zhengjun Zha Meng Wang 44 49 0 05 Apr 2020
DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog Feilong Chen Fandong Meng Jiaming Xu Peng Li Bo Xu Jie Zhou 47 34 0 18 Dec 2019
Meshed-Memory Transformer for Image Captioning Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara 49 873 0 17 Dec 2019
Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline Vishvak Murahari Dhruv Batra Devi Parikh Abhishek Das VLM 56 115 0 05 Dec 2019
Two Causal Principles for Improving Visual Dialog Jiaxin Qi Yulei Niu Jianqiang Huang Hanwang Zhang CML 46 148 0 24 Nov 2019
A Fast and Accurate One-Stage Approach to Visual Grounding Zhengyuan Yang Boqing Gong Liwei Wang Wenbing Huang Dong Yu Jiebo Luo ObjD 43 361 0 18 Aug 2019
Incremental Transformer with Deliberation Decoder for Document Grounded Conversations Zekang Li Cheng Niu Fandong Meng Yang Feng Q. Li Jie Zhou 58 115 0 20 Jul 2019
An Incremental Turn-Taking Model For Task-Oriented Dialog Systems Andrei Catalin Coman Koichiro Yoshino Yukitoshi Murase Satoshi Nakamura Giuseppe Riccardi 26 14 0 28 May 2019
Image-Question-Answer Synergistic Network for Visual Dialog Dalu Guo Chang Xu Dacheng Tao 42 74 0 26 Feb 2019
Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog Zhe Gan Yu Cheng Ahmed El Kholy Linjie Li Jingjing Liu Jianfeng Gao 42 104 0 01 Feb 2019
Recursive Visual Attention in Visual Dialog Yulei Niu Hanwang Zhang Manli Zhang Jianhong Zhang Zhiwu Lu Ji-Rong Wen 63 119 0 06 Dec 2018
Visual Coreference Resolution in Visual Dialog using Neural Module Networks Satwik Kottur José M. F. Moura Devi Parikh Dhruv Batra Marcus Rohrbach 54 165 0 06 Sep 2018
Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning Qi Wu Peng Wang Chunhua Shen Ian Reid Anton Van Den Hengel GAN 44 129 0 21 Nov 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 104 4,201 0 25 Jul 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 514 129,831 0 12 Jun 2017
Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model Jiasen Lu A. Kannan Jianwei Yang Devi Parikh Dhruv Batra BDL 61 137 0 05 Jun 2017
Visual Dialog Abhishek Das Satwik Kottur Khushi Gupta Avi Singh Deshraj Yadav José M. F. Moura Devi Parikh Dhruv Batra 142 993 0 26 Nov 2016
SPICE: Semantic Propositional Image Caption Evaluation Peter Anderson Basura Fernando Mark Johnson Stephen Gould EGVM 70 1,901 0 29 Jul 2016
Adversarial Feature Learning Jiasen Lu Philipp Krahenbuhl Trevor Darrell GAN 90 1,608 0 31 May 2016
Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Ranjay Krishna Yuke Zhu Oliver Groth Justin Johnson Kenji Hata ... Yannis Kalantidis Li Li David A. Shamma Michael S. Bernstein Fei-Fei Li 187 5,706 0 23 Feb 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 1.6K 192,638 0 10 Dec 2015
Incremental LSTM-based Dialog State Tracker Lukás Zilka Filip Jurcícek BDL 28 70 0 13 Jul 2015
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren Kaiming He Ross B. Girshick Jian Sun AIMat ObjD 423 61,900 0 04 Jun 2015
Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering Haoyuan Gao Junhua Mao Jie Zhou Zhiheng Huang Lei Wang Wenyuan Xu 78 498 0 21 May 2015
Exploring Models and Data for Image Question Answering Mengye Ren Ryan Kiros R. Zemel 80 713 0 08 May 2015
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Ke Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhutdinov R. Zemel Yoshua Bengio DiffM 298 10,034 0 10 Feb 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 1.1K 149,474 0 22 Dec 2014