PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and
Compositional Experts

PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts

24 May 2023

Yunshui Li

Min Yang

Fei Huang

Papers citing "PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts"

14 / 14 papers shown

Title
BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation Hee Suk Yoon Eunseop Yoon Joshua Tian Jin Tee Kang Zhang Yu-Jung Heo Du-Seong Chang Chang D. Yoo 36 3 0 12 Aug 2024
Multi-Modal Video Dialog State Tracking in the Wild Adnen Abdessaied Lei Shi Andreas Bulling 19 2 0 02 Jul 2024
Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model Longrong Yang Dong Shen Chaoxiang Cai Fan Yang Size Li Di Zhang Xi Li MoE 56 2 0 28 Jun 2024
Towards Spoken Language Understanding via Multi-level Multi-grained Contrastive Learning Xuxin Cheng Wanshi Xu Zhihong Zhu Hongxiang Li Yuexian Zou 61 13 0 31 May 2024
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models Bin Lin Zhenyu Tang Yang Ye Jiaxi Cui Bin Zhu ... Jinfa Huang Junwu Zhang Yatian Pang Munan Ning Li-ming Yuan VLM MLLM MoE 40 153 0 29 Jan 2024
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever Zhichao Yin Binyuan Hui Min Yang Fei Huang Yongbin Li VLM 40 3 0 02 Jan 2024
Large Language Models can Share Images, Too! Young-Jun Lee Dokyong Lee Joo Won Sung Jonghwan Hyeon Ho-Jin Choi MLLM 24 2 0 23 Oct 2023
MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning Haozhe Zhao Zefan Cai Shuzheng Si Xiaojian Ma Kaikai An Liang Chen Zixuan Liu Sheng Wang Wenjuan Han Baobao Chang MLLM VLM 28 133 0 14 Sep 2023
VDialogUE: A Unified Evaluation Benchmark for Visually-grounded Dialogue Yunshui Li Binyuan Hui Zhaochao Yin Wanwei He Run Luo Yuxing Long Min Yang Fei Huang Yongbin Li 26 1 0 14 Sep 2023
Mining Clues from Incomplete Utterance: A Query-enhanced Network for Incomplete Utterance Rewriting Shuzheng Si Shuang Zeng Baobao Chang 24 14 0 03 Jul 2023
LAVIS: A Library for Language-Vision Intelligence Dongxu Li Junnan Li Hung Le Guangsen Wang Silvio Savarese S. Hoi VLM 126 51 0 15 Sep 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 392 4,137 0 28 Jan 2022
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 316 3,708 0 11 Feb 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Joey Tianyi Zhou MLLM 268 525 0 04 Feb 2021