BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation

12 August 2024

Yu-Jung Heo

Chang D. Yoo

Papers citing "BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation"

26 / 26 papers shown

Title
TPC: Test-time Procrustes Calibration for Diffusion-based Human Image Animation Sunjae Yoon Gwanhyeong Koo Younghwan Lee Chang D. Yoo VGen 119 5 0 31 Oct 2024
MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation T. Pham Tri Ton Chang D. Yoo 80 3 0 03 Oct 2024
HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue Sunjae Yoon Dahyun Kim Eunseop Yoon Hee Suk Yoon Junyeong Kim C. Yoo 83 6 0 15 Dec 2023
PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts Yunshui Li Binyuan Hui Zhichao Yin Min Yang Fei Huang Yongbin Li MoE 51 20 0 24 May 2023
Grounding Language Models to Images for Multimodal Inputs and Outputs Jing Yu Koh Ruslan Salakhutdinov Daniel Fried MLLM 91 122 0 31 Jan 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 426 4,563 0 30 Jan 2023
Multi-Concept Customization of Text-to-Image Diffusion Nupur Kumari Bin Zhang Richard Y. Zhang Eli Shechtman Jun-Yan Zhu 136 872 0 08 Dec 2022
MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation Jiazhan Feng Qingfeng Sun Can Xu Pu Zhao Yaming Yang Chongyang Tao Dongyan Zhao Qingwei Lin 60 58 0 10 Nov 2022
eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers Yogesh Balaji Seungjun Nah Xun Huang Arash Vahdat Jiaming Song ... Timo Aila S. Laine Bryan Catanzaro Tero Karras Xuan Li VLM MoE 168 827 0 02 Nov 2022
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman 279 2,861 0 25 Aug 2022
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal Yuval Alaluf Yuval Atzmon Or Patashnik Amit H. Bermano Gal Chechik Daniel Cohen-Or 155 1,889 0 02 Aug 2022
M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database Jinming Zhao Tenggan Zhang Jingwen Hu Yuchen Liu Qin Jin Xinchao Wang Haizhou Li 62 55 0 09 May 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 385 3,542 0 29 Apr 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 440 15,665 0 20 Dec 2021
Multimodal Dialogue Response Generation Qingfeng Sun Yujing Wang Can Xu Kai Zheng Yaming Yang Huang Hu Fei Xu Jessica Zhang Xiubo Geng Daxin Jiang 79 48 0 16 Oct 2021
OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts Shuhe Wang Yuxian Meng Xiaoya Li Xiaofei Sun Rongbin Ouyang Jiwei Li MLLM VLM 65 22 0 27 Sep 2021
Structured Co-reference Graph Attention for Video-grounded Dialogue Junyeong Kim Sunjae Yoon Dahyun Kim Chang D. Yoo 52 26 0 24 Mar 2021
OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts Yuxian Meng Shuhe Wang Qinghong Han Xiaofei Sun Leilei Gan Rui Yan Jiwei Li 70 30 0 30 Dec 2020
Two Causal Principles for Improving Visual Dialog Jiaxin Qi Yulei Niu Jianqiang Huang Hanwang Zhang CML 71 148 0 24 Nov 2019
DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation Yizhe Zhang Siqi Sun Michel Galley Yen-Chun Chen Chris Brockett Xiang Gao Jianfeng Gao Jingjing Liu W. Dolan VLM 179 1,524 0 01 Nov 2019
Audio-Visual Scene-Aware Dialog Huda AlAmri Vincent Cartillier Abhishek Das Jue Wang A. Cherian ... Tim K. Marks Chiori Hori Peter Anderson Stefan Lee Devi Parikh VGen 54 192 0 25 Jan 2019
Recursive Visual Attention in Visual Dialog Yulei Niu Hanwang Zhang Manli Zhang Jianhong Zhang Zhiwu Lu Ji-Rong Wen 83 119 0 06 Dec 2018
Image Chat: Engaging Grounded Conversations Kurt Shuster Samuel Humeau Antoine Bordes Jason Weston 70 117 0 02 Nov 2018
MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations Soujanya Poria Devamanyu Hazarika Navonil Majumder Gautam Naik Min Zhang Rada Mihalcea 109 1,069 0 05 Oct 2018
Visual Dialog Abhishek Das Satwik Kottur Khushi Gupta Avi Singh Deshraj Yadav José M. F. Moura Devi Parikh Dhruv Batra 142 998 0 26 Nov 2016
Improved Techniques for Training GANs Tim Salimans Ian Goodfellow Wojciech Zaremba Vicki Cheung Alec Radford Xi Chen GAN 483 9,052 0 10 Jun 2016