v1v2v3v4 (latest)

VL-BERT: Pre-training of Generic Visual-Linguistic Representations

22 August 2019

Weijie Su

ArXiv (abs)PDF HTML Github (740★)

Papers citing "VL-BERT: Pre-training of Generic Visual-Linguistic Representations"

50 / 1,020 papers shown

Title
Understanding Guided Image Captioning Performance across Domains Edwin G. Ng Bo Pang P. Sharma Radu Soricut 118 25 0 04 Dec 2020
Classification of Multimodal Hate Speech -- The Winning Solution of Hateful Memes Challenge Xiayu Zhong 59 15 0 02 Dec 2020
Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs Emanuele Bugliarello Ryan Cotterell Naoaki Okazaki Desmond Elliott 102 120 0 30 Nov 2020
Learning from Lexical Perturbations for Consistent Visual Question Answering Spencer Whitehead Hui Wu Yi R. Fung Heng Ji Rogerio Feris Kate Saenko 68 11 0 26 Nov 2020
A Recurrent Vision-and-Language BERT for Navigation Yicong Hong Qi Wu Yuankai Qi Cristian Rodriguez-Opazo Stephen Gould LM&Ro 128 303 0 26 Nov 2020
Multimodal Learning for Hateful Memes Detection Yi Zhou Zhenhao Chen 87 61 0 25 Nov 2020
Open-Vocabulary Object Detection Using Captions Alireza Zareian Kevin Dela Rosa Derek Hao Hu Shih-Fu Chang VLM ObjD 187 436 0 20 Nov 2020
EasyTransfer -- A Simple and Scalable Deep Transfer Learning Platform for NLP Applications Minghui Qiu Peng Li Chengyu Wang Hanjie Pan Yaliang Li ... Jun Yang Yaliang Li Jun Huang Deng Cai Wei Lin VLM SyDa 109 20 0 18 Nov 2020
Generating Natural Questions from Images for Multimodal Assistants Alkesh Patel Akanksha Bindal Hadas Kotek Christopher Klein Jason D. Williams VGen 100 7 0 17 Nov 2020
Improving Calibration in Deep Metric Learning With Cross-Example Softmax Andreas Veit Kimberly Wilber 24 2 0 17 Nov 2020
Structural and Functional Decomposition for Personality Image Captioning in a Communication Game Minh-Thu Nguyen Duy Phung Minh Hoai Thien Huu Nguyen 63 4 0 17 Nov 2020
ActBERT: Learning Global-Local Video-Text Representations Linchao Zhu Yi Yang ViT 134 423 0 14 Nov 2020
Multimodal Pretraining for Dense Video Captioning Gabriel Huang Bo Pang Zhenhai Zhu Clara E. Rivera Radu Soricut 96 87 0 10 Nov 2020
Human-centric Spatio-Temporal Video Grounding With Visual Transformers Zongheng Tang Yue Liao Si Liu Guanbin Li Xiaojie Jin Hongxu Jiang Qian Yu Dong Xu 68 99 0 10 Nov 2020
Utilizing Every Image Object for Semi-supervised Phrase Grounding Haidong Zhu Arka Sadhu Zhao-Heng Zheng Ram Nevatia ObjD 66 7 0 05 Nov 2020
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox ViT CLIP 77 174 0 01 Nov 2020
Co-attentional Transformers for Story-Based Video Understanding Björn Bebensee Byoung-Tak Zhang 39 7 0 27 Oct 2020
MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering Aisha Urooj Khan Amir Mazaheri N. Lobo M. Shah 97 57 0 27 Oct 2020
Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions Liunian Harold Li Haoxuan You Zhecan Wang Alireza Zareian Shih-Fu Chang Kai-Wei Chang SSL VLM 101 12 0 24 Oct 2020
Multilingual Speech Translation with Efficient Finetuning of Pretrained Models Xian Li Changhan Wang Yun Tang C. Tran Yuqing Tang J. Pino Alexei Baevski Alexis Conneau Michael Auli 62 6 0 24 Oct 2020
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends Shagun Uppal Sarthak Bhagat Devamanyu Hazarika Navonil Majumdar Soujanya Poria Roger Zimmermann Amir Zadeh 101 6 0 19 Oct 2020
Knowledge-Grounded Dialogue Generation with Pre-trained Language Models Xueliang Zhao Wei Wu Can Xu Chongyang Tao Dongyan Zhao Rui Yan 260 193 0 17 Oct 2020
Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question Answering Hantao Huang Tao Han Wei Han D. Yap Cheng-Ming Chiang 28 4 0 17 Oct 2020
Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive Learning Wanyun Cui Guangyu Zheng Wei Wang SSL 52 21 0 16 Oct 2020
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs Ana Marasović Chandra Bhagavatula J. S. Park Ronan Le Bras Noah A. Smith Yejin Choi ReLM LRM 99 62 0 15 Oct 2020
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision Hao Tan Joey Tianyi Zhou CLIP 89 121 0 14 Oct 2020
CAPT: Contrastive Pre-Training for Learning Denoised Sequence Representations Fuli Luo Pengcheng Yang Shicheng Li Xuancheng Ren Xu Sun VLM SSL 73 16 0 13 Oct 2020
Contrast and Classify: Training Robust VQA Models Yash Kant A. Moudgil Dhruv Batra Devi Parikh Harsh Agrawal 55 5 0 13 Oct 2020
Webly Supervised Image Classification with Metadata: Automatic Noisy Label Correction via Visual-Semantic Graph Jingkang Yang Weirong Chen Xue Jiang Xiaopeng Yan Huabin Zheng Wayne Zhang NoLa 74 13 0 12 Oct 2020
Beyond Language: Learning Commonsense from Images for Reasoning Wanqing Cui Yanyan Lan Liang Pang Jiafeng Guo Xueqi Cheng LRM 71 5 0 10 Oct 2020
Multi-label classification of promotions in digital leaflets using textual and visual information R. Arroyo David Jiménez-Cabello Javier Martínez-Cebrián 56 3 0 07 Oct 2020
Learning to Represent Image and Text with Denotation Graph Bowen Zhang Hexiang Hu Vihan Jain Eugene Ie Fei Sha 78 22 0 06 Oct 2020
Support-set bottlenecks for video-text representation learning Mandela Patrick Po-Yao (Bernie) Huang Yuki M. Asano Florian Metze Alexander G. Hauptmann João Henriques Andrea Vedaldi 108 249 0 06 Oct 2020
Attention Guided Semantic Relationship Parsing for Visual Question Answering M. Farazi Salman Khan Nick Barnes 40 2 0 05 Oct 2020
Which *BERT? A Survey Organizing Contextualized Encoders Patrick Xia Shijie Wu Benjamin Van Durme 62 50 0 02 Oct 2020
Contrastive Learning of Medical Visual Representations from Paired Images and Text Yuhao Zhang Hang Jiang Yasuhide Miura Christopher D. Manning C. Langlotz MedIm 222 774 0 02 Oct 2020
ISAAQ -- Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention José Manuél Gómez-Pérez Raúl Ortega 61 24 0 01 Oct 2020
Learning Object Detection from Captions via Textual Scene Attributes Achiya Jerbi Roei Herzig Jonathan Berant Gal Chechik Amir Globerson 79 21 0 30 Sep 2020
VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning Xiaowei Hu Xi Yin Kevin Qinghong Lin Lijuan Wang Lefei Zhang Jianfeng Gao Zicheng Liu VLM 103 56 0 28 Sep 2020
X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers Jaemin Cho Jiasen Lu Dustin Schwenk Hannaneh Hajishirzi Aniruddha Kembhavi VLM MLLM 95 102 0 23 Sep 2020
Commands 4 Autonomous Vehicles (C4AV) Workshop Summary Thierry Deruyttere Simon Vandenhende Dusan Grujicic Yu Liu Luc Van Gool Matthew Blaschko Tinne Tuytelaars Marie-Francine Moens 63 6 0 18 Sep 2020
MUTANT: A Training Paradigm for Out-of-Distribution Generalization in Visual Question Answering Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang OOD 56 142 0 18 Sep 2020
A Multimodal Memes Classification: A Survey and Open Research Issues Tariq Habib Afridi A. Alam Muhammad Numan Khan Jawad Khan Young-Koo Lee 55 41 0 17 Sep 2020
Multimodal Joint Attribute Prediction and Value Extraction for E-commerce Product Tiangang Zhu Yue Wang Haoran Li Youzheng Wu Xiaodong He Bowen Zhou 58 71 0 15 Sep 2020
Denoising Large-Scale Image Captioning from Alt-text Data using Content Selection Models Khyathi Chandu Piyush Sharma Soravit Changpinyo Ashish V. Thapliyal Radu Soricut DiffM VLM 84 3 0 10 Sep 2020
Visual Relationship Detection with Visual-Linguistic Knowledge from Multimodal Representations Meng-Jiun Chiou Roger Zimmermann Jiashi Feng 109 1 0 10 Sep 2020
Active Contrastive Learning of Audio-Visual Video Representations Shuang Ma Zhaoyang Zeng Daniel J. McDuff Yale Song VLM SSL 60 8 0 31 Aug 2020
DeVLBert: Learning Deconfounded Visio-Linguistic Representations Shengyu Zhang Tan Jiang Tan Wang Kun Kuang Zhou Zhao Jianke Zhu Jin Yu Hongxia Yang Leilei Gan OOD 81 88 0 16 Aug 2020
Weakly supervised cross-domain alignment with optimal transport Siyang Yuan Ke Bai Liqun Chen Yizhe Zhang Chenyang Tao Chunyuan Li Guoyin Wang Ricardo Henao Lawrence Carin OT 60 7 0 14 Aug 2020
ConvBERT: Improving BERT with Span-based Dynamic Convolution Zihang Jiang Weihao Yu Daquan Zhou Yunpeng Chen Jiashi Feng Shuicheng Yan 135 162 0 06 Aug 2020