Visual Reference Resolution using Attention Memory for Visual Dialog

23 September 2017

Papers citing "Visual Reference Resolution using Attention Memory for Visual Dialog"

25 / 25 papers shown

Title
MTPChat: A Multimodal Time-Aware Persona Dataset for Conversational Agents Wanqi Yang Yong Li Meng Fang L. Chen 64 1 0 09 Feb 2025
Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge Young-Jun Lee Dokyong Lee Junyoung Youn Kyeongjin Oh ByungSoo Ko Jonghwan Hyeon Ho-Jin Choi 36 2 0 04 Jul 2024
StoryGPT-V: Large Language Models as Consistent Story Visualizers Xiaoqian Shen Mohamed Elhoseiny VLM 101 10 0 04 Dec 2023
Which One Are You Referring To? Multimodal Object Identification in Situated Dialogue Holy Lovenia Samuel Cahyawijaya Pascale Fung 16 1 0 28 Feb 2023
Make-A-Story: Visual Memory Conditioned Consistent Story Generation Tanzila Rahman Hsin-Ying Lee Jian Ren Sergey Tulyakov Shweta Mahajan Leonid Sigal DiffM 19 68 0 23 Nov 2022
Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review Hao Wang Bin Guo Y. Zeng Yasan Ding Chen Qiu Ying Zhang Li Yao Zhiwen Yu 32 2 0 02 Jul 2022
The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training Gi-Cheon Kang Sungdong Kim Jin-Hwa Kim Donghyun Kwak Byoung-Tak Zhang 32 10 0 25 May 2022
OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts Shuhe Wang Yuxian Meng Xiaoya Li Xiaofei Sun Rongbin Ouyang Jiwei Li MLLM VLM 30 21 0 27 Sep 2021
Structured Co-reference Graph Attention for Video-grounded Dialogue Junyeong Kim Sunjae Yoon Dahyun Kim Chang D. Yoo 23 26 0 24 Mar 2021
DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue Hung Le Chinnadhurai Sankar Seungwhan Moon Ahmad Beirami A. Geramifard Satwik Kottur VGen 31 18 0 01 Jan 2021
OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts Yuxian Meng Shuhe Wang Qinghong Han Xiaofei Sun Fei Wu Rui Yan Jiwei Li 27 28 0 30 Dec 2020
Look Before you Speak: Visually Contextualized Utterances Paul Hongsuck Seo Arsha Nagrani Cordelia Schmid 21 66 0 10 Dec 2020
History for Visual Dialog: Do we really need it? Shubham Agarwal Trung Bui Joon-Young Lee Ioannis Konstas Verena Rieser VLM 19 69 0 08 May 2020
VD-BERT: A Unified Vision and Dialog Transformer with BERT Yue Wang Chenyu You Michael R. Lyu Irwin King Caiming Xiong Guosheng Lin 24 102 0 28 Apr 2020
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue X. Jiang Jiahao Yu Zengchang Qin Yingying Zhuang Xingxing Zhang Yue Hu Qi Wu 23 70 0 17 Nov 2019
Probabilistic framework for solving Visual Dialog Badri N. Patro Anupriy Vinay P. Namboodiri BDL 30 13 0 11 Sep 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 20 132 0 22 Jul 2019
Factor Graph Attention Idan Schwartz Seunghak Yu Tamir Hazan A. Schwing 24 110 0 11 Apr 2019
Reasoning Visual Dialogs with Structural and Partial Observations Zilong Zheng Wenguan Wang Siyuan Qi Song-Chun Zhu 39 117 0 11 Apr 2019
CLEVR-Dialog: A Diagnostic Dataset for Multi-Round Reasoning in Visual Dialog Satwik Kottur José M. F. Moura Devi Parikh Dhruv Batra Marcus Rohrbach 26 86 0 07 Mar 2019
Dual Attention Networks for Visual Reference Resolution in Visual Dialog Gi-Cheon Kang Jaeseo Lim Byoung-Tak Zhang 19 72 0 25 Feb 2019
Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog Zhe Gan Yu Cheng Ahmed El Kholy Linjie Li Jingjing Liu Jianfeng Gao 11 104 0 01 Feb 2019
Traversing the Continuous Spectrum of Image Retrieval with Deep Dynamic Models Ziad Al-Halah Andreas M. Lehrmann Leonid Sigal 16 0 0 01 Dec 2018
Modular Generative Adversarial Networks Bo Zhao B. Chang Zequn Jie Leonid Sigal GAN 33 80 0 10 Apr 2018
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 167 1,464 0 06 Jun 2016