v1v2v3 (latest)

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

16 August 2019

Papers citing "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training"

50 / 512 papers shown

Title
Multimodal Conditionality for Natural Language Generation Michael Sollami Aashish Jain 73 10 0 02 Sep 2021
CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations Hang Li Yunxing Kang Tianqiao Liu Wenbiao Ding Zitao Liu 71 19 0 01 Sep 2021
Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training Yuqing Song Shizhe Chen Qin Jin Wei Luo Jun Xie Fei Huang 101 20 0 25 Aug 2021
Grid-VLP: Revisiting Grid Features for Vision-Language Pre-training Ming Yan Haiyang Xu Chenliang Li Bin Bi Junfeng Tian Min Gui Wei Wang VLM 62 10 0 21 Aug 2021
Knowledge Perceived Multi-modal Pretraining in E-commerce Yushan Zhu Huaixiao Tou Wen Zhang Ganqiang Ye Hui Chen Ningyu Zhang Huajun Chen 92 33 0 20 Aug 2021
Indoor Semantic Scene Understanding using Multi-modality Fusion Muraleekrishna Gopinathan Giang Truong Jumana Abu-Khalaf 54 0 0 17 Aug 2021
ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration Yuhao Cui Zhou Yu Chunqi Wang Zhongzhou Zhao Ji Zhang Meng Wang Jun-chen Yu VLM 64 56 0 16 Aug 2021
StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators Rinon Gal Or Patashnik Haggai Maron Gal Chechik Daniel Cohen-Or CLIP VLM 90 232 0 02 Aug 2021
BadEncoder: Backdoor Attacks to Pre-trained Encoders in Self-Supervised Learning Jinyuan Jia Yupei Liu Neil Zhenqiang Gong SILM SSL 125 159 0 01 Aug 2021
UIBert: Learning Generic Multimodal Representations for UI Understanding Chongyang Bai Xiaoxue Zang Ying Xu Srinivas Sunkara Abhinav Rastogi Jindong Chen Blaise Agüera y Arcas 90 95 0 29 Jul 2021
Exceeding the Limits of Visual-Linguistic Multi-Task Learning Cameron R. Wolfe Keld T. Lundgaard VLM 76 2 0 27 Jul 2021
DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic Framework Haiwen Hong Xuan Jin Yin Zhang Yunqing Hu Jingfeng Zhang Yuan He Hui Xue MoE 34 0 0 21 Jul 2021
Separating Skills and Concepts for Novel Visual Question Answering Spencer Whitehead Hui Wu Heng Ji Rogerio Feris Kate Saenko CoGe 95 34 0 19 Jul 2021
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Junnan Li Ramprasaath R. Selvaraju Akhilesh Deepak Gotmare Shafiq Joty Caiming Xiong Guosheng Lin FaML 330 1,988 0 16 Jul 2021
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer Zineng Tang Jaemin Cho Hao Tan Joey Tianyi Zhou VLM 59 29 0 06 Jul 2021
PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior for Joint Image-Text Modeling Xiaoxue Zang Lijuan Liu Maria Wang Yang Song Hao Zhang Jindong Chen VLM 99 60 0 06 Jul 2021
Productivity, Portability, Performance: Data-Centric Python Yiheng Wang Yao Zhang Yanzhang Wang Yan Wan Jiao Wang Zhongyuan Wu Yuhao Yang Bowen She 169 101 0 01 Jul 2021
OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation Jing Liu Xinxin Zhu Fei Liu Longteng Guo Zijia Zhao ... Weining Wang Hanqing Lu Shiyu Zhou Jiajun Zhang Jinqiao Wang 82 38 0 01 Jul 2021
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training Hongwei Xue Yupan Huang Bei Liu Houwen Peng Jianlong Fu Houqiang Li Jiebo Luo 94 89 0 25 Jun 2021
A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021 Keda Lu Bo Fang Kuan-Yu Chen ViT 38 2 0 24 Jun 2021
Towards Long-Form Video Understanding Chaoxia Wu Philipp Krahenbuhl VLM ViT 119 170 0 21 Jun 2021
GEM: A General Evaluation Benchmark for Multimodal Tasks Lin Su Nan Duan Edward Cui Lei Ji Chenfei Wu Huaishao Luo Yongfei Liu Ming Zhong Taroon Bharti Arun Sacheti VLM 112 19 0 18 Jun 2021
Efficient Self-supervised Vision Transformers for Representation Learning Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao ViT 108 214 0 17 Jun 2021
Probing Image-Language Transformers for Verb Understanding Lisa Anne Hendricks Aida Nematzadeh 79 119 0 16 Jun 2021
Pre-Trained Models: Past, Present and Future Xu Han Zhengyan Zhang Ning Ding Yuxian Gu Xiao Liu ... Jie Tang Ji-Rong Wen Jinhui Yuan Wayne Xin Zhao Jun Zhu AIFin MQ AI4MH 177 863 0 14 Jun 2021
Assessing Multilingual Fairness in Pre-trained Multimodal Representations Jialu Wang Yang Liu Xinze Wang EGVM 102 37 0 12 Jun 2021
Team RUC_AIM3 Technical Report at ActivityNet 2021: Entities Object Localization Ludan Ruan Jieting Chen Yuqing Song Shizhe Chen Qin Jin 34 0 0 11 Jun 2021
Chasing Sparsity in Vision Transformers: An End-to-End Exploration Tianlong Chen Yu Cheng Zhe Gan Lu Yuan Lei Zhang Zhangyang Wang ViT 70 224 0 08 Jun 2021
BERTGEN: Multi-task Generation through BERT Faidon Mitzalis Ozan Caglayan Pranava Madhyastha Lucia Specia VLM 48 7 0 07 Jun 2021
MERLOT: Multimodal Neural Script Knowledge Models Rowan Zellers Ximing Lu Jack Hessel Youngjae Yu J. S. Park Jize Cao Ali Farhadi Yejin Choi VLM LRM 104 384 0 04 Jun 2021
E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning Haiyang Xu Ming Yan Chenliang Li Bin Bi Songfang Huang Wenming Xiao Fei Huang VLM 113 119 0 03 Jun 2021
GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning Jiaqi Chen Jianheng Tang Jinghui Qin Xiaodan Liang Lingbo Liu Eric Xing Liang Lin AIMat 117 188 0 30 May 2021
Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation Shuhe Wang Yuxian Meng Xiaofei Sun Leilei Gan Rongbin Ouyang Rui Yan Tianwei Zhang Jiwei Li 66 15 0 30 May 2021
M6-UFC: Unifying Multi-Modal Controls for Conditional Image Synthesis via Non-Autoregressive Generative Transformers Zhu Zhang Jianxin Ma Chang Zhou Rui Men Zhikang Li Ming Ding Jie Tang Jingren Zhou Hongxia Yang 98 47 0 29 May 2021
Multi-Modal Semantic Inconsistency Detection in Social Media News Posts S. McCrae Kehan Wang A. Zakhor 60 15 0 26 May 2021
Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking Heng-Da Xu Zhongli Li Qingyu Zhou Chao Li Zizhen Wang Yunbo Cao Heyan Huang Xian-Ling Mao 98 97 0 26 May 2021
Understanding Mobile GUI: from Pixel-Words to Screen-Sentences Jingwen Fu Xiaoyi Zhang Yuwang Wang Wenjun Zeng Sam Yang Grayson Hilliard 66 15 0 25 May 2021
Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training Jong Hak Moon HyunGyung Lee W. Shin Young-Hak Kim Edward Choi MedIm 110 161 0 24 May 2021
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Prahal Arora Masoumeh Aminzadeh Christoph Feichtenhofer Florian Metze Luke Zettlemoyer 82 133 0 20 May 2021
A Review on Explainability in Multimodal Deep Neural Nets Gargi Joshi Rahee Walambe K. Kotecha 138 142 0 17 May 2021
Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval K. Ueki 52 4 0 16 May 2021
Recent Advances in Deep Learning Based Dialogue Systems: A Systematic Survey Jinjie Ni Tom Young Vlad Pandelea Fuzhao Xue Min Zhang 225 280 0 10 May 2021
Playing Lottery Tickets with Vision and Language Zhe Gan Yen-Chun Chen Linjie Li Tianlong Chen Yu Cheng Shuohang Wang Jingjing Liu Lijuan Wang Zicheng Liu VLM 142 56 0 23 Apr 2021
Detector-Free Weakly Supervised Grounding by Separation Assaf Arbelle Sivan Doveh Amit Alfassy J. Shtok Guy Lev ... Kate Saenko S. Ullman Raja Giryes Rogerio Feris Leonid Karlinsky 92 24 0 20 Apr 2021
Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training Chenyi Lei Shixian Luo Yong Liu Wanggui He Jiamang Wang Guoxin Wang Haihong Tang Chunyan Miao Houqiang Li 60 42 0 19 Apr 2021
Cross-Modal Retrieval Augmentation for Multi-Modal Classification Shir Gur Natalia Neverova C. Stauffer Ser-Nam Lim Douwe Kiela A. Reiter 147 30 0 16 Apr 2021
Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning Zhicheng Huang Zhaoyang Zeng Yupan Huang Bei Liu Dongmei Fu Jianlong Fu VLM ViT 158 274 0 07 Apr 2021
Compressing Visual-linguistic Model via Knowledge Distillation Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lijuan Wang Yezhou Yang Zicheng Liu VLM 116 99 0 05 Apr 2021
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training Mingyang Zhou Luowei Zhou Shuohang Wang Yu Cheng Linjie Li Zhou Yu Jingjing Liu MLLM VLM 97 92 0 01 Apr 2021
A Survey on Natural Language Video Localization Xinfang Liu Xiushan Nie Zhifang Tan Jie Guo Yilong Yin 121 7 0 01 Apr 2021