Title
Unified Video-Language Pre-training with Synchronized Audio Shentong Mo Haofan Wang Huaxia Li Xu Tang 30 2 0 12 May 2024
Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment Cong-Duy Nguyen The-Anh Vu-Le Thong Nguyen Tho Quan A. Luu 23 5 0 04 Dec 2023
CAVL: Learning Contrastive and Adaptive Representations of Vision and Language Shentong Mo Jingfei Xia Ihor Markevych CLIP VLM 16 1 0 10 Apr 2023
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering Jingjing Jiang Zi-yi Liu Nanning Zheng 26 8 0 14 Sep 2022
Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection Jiashuo Yu Jin-Yuan Liu Ying Cheng Rui Feng Yuejie Zhang 14 34 0 12 Jul 2022
Vision-and-Language Pretraining Thong Nguyen Cong-Duy Nguyen Xiaobao Wu See-Kiong Ng A. Luu VLM CLIP 19 2 0 05 Jul 2022
Improving and Diagnosing Knowledge-Based Visual Question Answering via Entity Enhanced Knowledge Injection Diego Garcia-Olano Yasumasa Onoe Joydeep Ghosh 8 18 0 13 Dec 2021
A Simple Long-Tailed Recognition Baseline via Vision-Language Model Teli Ma Shijie Geng Mengmeng Wang Jing Shao Jiasen Lu Hongsheng Li Peng Gao Yu Qiao VLM 24 46 0 29 Nov 2021
Multilingual Molecular Representation Learning via Contrastive Pre-training Zhihui Guo P. Sharma Andy Martinez Liang Du Robin Abraham 38 29 0 18 Sep 2021
Multimodal Co-learning: Challenges, Applications with Datasets, Recent Advances and Future Directions Anil Rahate Rahee Walambe S. Ramanna K. Kotecha 19 135 0 29 Jul 2021
Language-Driven Image Style Transfer Tsu-jui Fu X. Wang William Yang Wang CLIP VLM 21 46 0 01 Jun 2021
A Review on Explainability in Multimodal Deep Neural Nets Gargi Joshi Rahee Walambe K. Kotecha 23 137 0 17 May 2021
Playing Lottery Tickets with Vision and Language Zhe Gan Yen-Chun Chen Linjie Li Tianlong Chen Yu Cheng Shuohang Wang Jingjing Liu Lijuan Wang Zicheng Liu VLM 103 53 0 23 Apr 2021
M3L: Language-based Video Editing via Multi-Modal Multi-Level Transformers Tsu-jui Fu X. Wang Scott T. Grafton M. Eckstein W. Wang 16 9 0 02 Apr 2021
P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for RGB-D Scene Understanding Yunze Liu Li Yi Shanghang Zhang Qingnan Fan Thomas Funkhouser Hao Dong SSL 28 58 0 24 Dec 2020
A Closer Look at the Robustness of Vision-and-Language Pre-trained Models Linjie Li Zhe Gan Jingjing Liu VLM 25 42 0 15 Dec 2020
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends Shagun Uppal Sarthak Bhagat Devamanyu Hazarika Navonil Majumdar Soujanya Poria Roger Zimmermann Amir Zadeh 20 6 0 19 Oct 2020
Pathological Visual Question Answering Xuehai He Zhuo Cai Wenlan Wei Yichen Zhang Luntian Mou Eric P. Xing P. Xie 62 24 0 06 Oct 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 267 3,369 0 09 Mar 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,956 0 20 Apr 2018
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,743 0 26 Sep 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 152 1,465 0 06 Jun 2016