VD-BERT: A Unified Vision and Dialog Transformer with BERT

28 April 2020

Yue Wang

Shafiq R. Joty

Michael R. Lyu

Irwin King

Caiming Xiong

S. Hoi

ArXiv PDF HTML

Papers citing "VD-BERT: A Unified Vision and Dialog Transformer with BERT"

23 / 23 papers shown

Title
Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog Haoyu Zhang Meng Liu Yaowei Wang Da Cao Weili Guan Liqiang Nie 28 0 0 11 Oct 2023
Understanding Social Media Cross-Modality Discourse in Linguistic Space Chunpu Xu Hanzhuo Tan Jing Li Piji Li 19 5 0 26 Feb 2023
Unified Multimodal Model with Unlikelihood Training for Visual Dialog Zihao Wang Junli Wang Changjun Jiang MLLM 23 10 0 23 Nov 2022
Masked Autoencoding for Scalable and Generalizable Decision Making Fangchen Liu Hao Liu Aditya Grover Pieter Abbeel OffRL 42 45 0 23 Nov 2022
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning Tao He Lianli Gao Jingkuan Song Yuan-Fang Li VLM 25 50 0 17 Aug 2022
Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review Hao Wang Bin Guo Y. Zeng Yasan Ding Chen Qiu Ying Zhang Li Yao Zhiwen Yu 27 2 0 02 Jul 2022
VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution Xintong Yu Hongming Zhang Ruixin Hong Yangqiu Song Changshui Zhang 17 12 0 29 May 2022
The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training Gi-Cheon Kang Sungdong Kim Jin-Hwa Kim Donghyun Kwak Byoung-Tak Zhang 24 10 0 25 May 2022
META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI Liangtai Sun Xingyu Chen Lu Chen Tianle Dai Zichen Zhu Kai Yu LLMAG 18 50 0 23 May 2022
UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog Cheng Chen Yudong Zhu Zhenshan Tan Qingrong Cheng Xin Jiang Qun Liu X. Gu 25 39 0 01 May 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 46 3,328 0 29 Apr 2022
Vision-and-Language Pretrained Models: A Survey Siqu Long Feiqi Cao S. Han Haiqing Yang VLM 22 63 0 15 Apr 2022
Language Matters: A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting Chuhui Xue Wenqing Zhang Yu Hao Shijian Lu Philip H. S. Torr Song Bai VLM 32 31 0 08 Mar 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 212 0 18 Feb 2022
Can Open Domain Question Answering Systems Answer Visual Knowledge Questions? Jiawen Zhang Abhijit Mishra Avinesh P.V.S Siddharth Patwardhan Sachin Agarwal 24 0 0 09 Feb 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 390 4,125 0 28 Jan 2022
Productivity, Portability, Performance: Data-Centric Python Yiheng Wang Yao Zhang Yanzhang Wang Yan Wan Jiao Wang Zhongyuan Wu Yuhao Yang Bowen She 52 94 0 01 Jul 2021
Recent Advances in Deep Learning Based Dialogue Systems: A Systematic Survey Jinjie Ni Tom Young Vlad Pandelea Fuzhao Xue Erik Cambria 54 267 0 10 May 2021
Playing Lottery Tickets with Vision and Language Zhe Gan Yen-Chun Chen Linjie Li Tianlong Chen Yu Cheng Shuohang Wang Jingjing Liu Lijuan Wang Zicheng Liu VLM 103 53 0 23 Apr 2021
OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts Yuxian Meng Shuhe Wang Qinghong Han Xiaofei Sun Fei Wu Rui Yan Jiwei Li 16 28 0 30 Dec 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 24 487 0 11 Jun 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,743 0 26 Sep 2016