v1v2v3v4 (latest)

VL-BERT: Pre-training of Generic Visual-Linguistic Representations

22 August 2019

Weijie Su

ArXiv (abs)PDF HTML Github (740★)

Papers citing "VL-BERT: Pre-training of Generic Visual-Linguistic Representations"

50 / 1,020 papers shown

Title
Learning Visual Representations with Caption Annotations Mert Bulent Sariyildiz J. Perez Diane Larlus VLM SSL 119 162 0 04 Aug 2020
SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation Space Liu Yang VLM 60 5 0 02 Aug 2020
Spatially Aware Multimodal Transformers for TextVQA Yash Kant Dhruv Batra Peter Anderson Alex Schwing Devi Parikh Jiasen Lu Harsh Agrawal 100 86 0 23 Jul 2020
Referring Expression Comprehension: A Survey of Methods and Datasets Yanyuan Qiao Chaorui Deng Qi Wu ObjD 120 99 0 19 Jul 2020
Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training Yingwei Pan Yehao Li Jianjie Luo Jun Xu Ting Yao Tao Mei 100 59 0 05 Jul 2020
Modality-Agnostic Attention Fusion for visual search with text feedback Eric Dodds Jack Culpepper Simão Herdade Yang Zhang K. Boakye EgoV 98 74 0 30 Jun 2020
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph Fei Yu Jiji Tang Weichong Yin Yu Sun Hao Tian Hua Wu Haifeng Wang 128 382 0 30 Jun 2020
Video-Grounded Dialogues with Pretrained Generation Language Models Hung Le Guosheng Lin 82 28 0 27 Jun 2020
Contrastive Learning for Weakly Supervised Phrase Grounding Tanmay Gupta Arash Vahdat Gal Chechik Xiaodong Yang Jan Kautz Derek Hoiem ObjD SSL 168 144 0 17 Jun 2020
VirTex: Learning Visual Representations from Textual Annotations Karan Desai Justin Johnson SSL VLM 171 437 0 11 Jun 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 130 501 0 11 Jun 2020
Picket: Guarding Against Corrupted Data in Tabular Data during Learning and Inference Zifan Liu Zhechun Zhou Theodoros Rekatsinas 50 16 0 08 Jun 2020
High-Fidelity Audio Generation and Representation Learning with Guided Adversarial Autoencoder Kazi Nazmul Haque R. Rana Björn W Schuller DRL 100 12 0 01 Jun 2020
FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval D. Gao Linbo Jin Ben Chen Minghui Qiu Peng Li Yi Wei Yitao Hu Haozhe Jasper Wang OOD 84 134 0 20 May 2020
Graph Density-Aware Losses for Novel Compositions in Scene Graph Generation Boris Knyazev H. D. Vries Cătălina Cangea Graham W. Taylor Aaron Courville Eugene Belilovsky 72 56 0 17 May 2020
Adaptive Transformers for Learning Multimodal Representations Prajjwal Bhargava 21 4 0 15 May 2020
Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models Jize Cao Zhe Gan Yu Cheng Licheng Yu Yen-Chun Chen Jingjing Liu VLM 115 130 0 15 May 2020
Cross-Modality Relevance for Reasoning on Language and Vision Chen Zheng Quan Guo Parisa Kordjamshidi LRM 88 36 0 12 May 2020
VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation Jiyang Gao Chen Sun Hang Zhao Yi Shen Dragomir Anguelov Congcong Li Cordelia Schmid 132 816 0 08 May 2020
MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis Devamanyu Hazarika Roger Zimmermann Soujanya Poria 110 719 0 07 May 2020
Cross-media Structured Common Space for Multimedia Event Extraction Manling Li Alireza Zareian Qi Zeng Spencer Whitehead Di Lu Heng Ji Shih-Fu Chang 80 103 0 05 May 2020
Visually Grounded Continual Learning of Compositional Phrases Xisen Jin Junyi Du Arka Sadhu Ram Nevatia Xiang Ren CLL 61 4 0 02 May 2020
Probing Contextual Language Models for Common Ground with Visual Representations Gabriel Ilharco Rowan Zellers Ali Farhadi Hannaneh Hajishirzi 118 14 0 01 May 2020
Visuo-Linguistic Question Answering (VLQA) Challenge Shailaja Keyur Sampat Yezhou Yang Chitta Baral CoGe 28 1 0 01 May 2020
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training Linjie Li Yen-Chun Chen Yu Cheng Zhe Gan Licheng Yu Jingjing Liu MLLM VLM OffRL AI4TS 133 506 0 01 May 2020
Improving Vision-and-Language Navigation with Image-Text Pairs from the Web Arjun Majumdar Ayush Shrivastava Stefan Lee Peter Anderson Devi Parikh Dhruv Batra LM&Ro 193 236 0 30 Apr 2020
VD-BERT: A Unified Vision and Dialog Transformer with BERT Yue Wang Shafiq Joty Michael R. Lyu Irwin King Caiming Xiong Guosheng Lin 114 104 0 28 Apr 2020
Upgrading the Newsroom: An Automated Image Selection System for News Articles Fangyu Liu R. Lebret D. Orel Philippe Sordet Karl Aberer 21 6 0 23 Apr 2020
VisualCOMET: Reasoning about the Dynamic Context of a Still Image J. S. Park Chandra Bhagavatula Roozbeh Mottaghi Ali Farhadi Yejin Choi ReLM LRM 75 6 0 22 Apr 2020
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision Damien Teney Ehsan Abbasnejad Anton Van Den Hengel OOD SSL CML 93 119 0 20 Apr 2020
Are we pretraining it right? Digging deeper into visio-linguistic pretraining Amanpreet Singh Vedanuj Goswami Devi Parikh VLM 78 48 0 19 Apr 2020
Coreferential Reasoning Learning for Language Representation Deming Ye Yankai Lin Jiaju Du Zhenghao Liu Peng Li Maosong Sun Zhiyuan Liu 87 179 0 15 Apr 2020
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu ... Houdong Hu Li Dong Furu Wei Yejin Choi Jianfeng Gao VLM 204 1,953 0 13 Apr 2020
Multimodal Categorization of Crisis Events in Social Media Mahdi Abavisani Liwei Wu Shengli Hu Joel R. Tetreault A. Jaimes 98 88 0 10 Apr 2020
Learning to Scale Multilingual Representations for Vision-Language Tasks Andrea Burns Donghyun Kim Derry Wijaya Kate Saenko Bryan A. Plummer 50 35 0 09 Apr 2020
Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers Zhicheng Huang Zhaoyang Zeng Bei Liu Dongmei Fu Jianlong Fu ViT 187 440 0 02 Apr 2020
VIOLIN: A Large-Scale Dataset for Video-and-Language Inference J. Liu Wenhu Chen Yu Cheng Zhe Gan Licheng Yu Yiming Yang Jingjing Liu MLLM VGen 102 70 0 25 Mar 2020
Pre-trained Models for Natural Language Processing: A Survey Xipeng Qiu Tianxiang Sun Yige Xu Yunfan Shao Ning Dai Xuanjing Huang LM&MA VLM 393 1,500 0 18 Mar 2020
XGPT: Cross-modal Generative Pre-Training for Image Captioning Qiaolin Xia Haoyang Huang Nan Duan Dongdong Zhang Lei Ji Zhifang Sui Edward Cui Taroon Bharti Xin Liu Ming Zhou MLLM VLM 103 76 0 03 Mar 2020
What BERT Sees: Cross-Modal Transfer for Visual Question Generation Thomas Scialom Patrick Bordes Paul-Alexis Dray Jacopo Staiano Patrick Gallinari 59 6 0 25 Feb 2020
Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training Weituo Hao Chunyuan Li Xiujun Li Lawrence Carin Jianfeng Gao LM&Ro 119 282 0 25 Feb 2020
Measuring Social Biases in Grounded Vision and Language Embeddings Candace Ross Boris Katz Andrei Barbu 101 65 0 20 Feb 2020
Robustness Verification for Transformers Zhouxing Shi Huan Zhang Kai-Wei Chang Minlie Huang Cho-Jui Hsieh AAML 89 109 0 16 Feb 2020
ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data Di Qi Lin Su Jianwei Song Edward Cui Taroon Bharti Arun Sacheti VLM 116 263 0 22 Jan 2020
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models M. Farazi Salman H. Khan Nick Barnes 79 18 0 20 Jan 2020
Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation Fajie Yuan Xiangnan He Alexandros Karatzoglou Liguang Zhang 32 0 0 13 Jan 2020
In Defense of Grid Features for Visual Question Answering Huaizu Jiang Ishan Misra Marcus Rohrbach Erik Learned-Miller Xinlei Chen OOD ObjD 82 320 0 10 Jan 2020
Visual Question Answering on 360° Images Shih-Han Chou Wei-Lun Chao Wei-Sheng Lai Min Sun Ming-Hsuan Yang 52 22 0 10 Jan 2020
All-in-One Image-Grounded Conversational Agents Da Ju Kurt Shuster Y-Lan Boureau Jason Weston LLMAG 78 8 0 28 Dec 2019
Context R-CNN: Long Term Temporal Context for Per-Camera Object Detection Sara Beery Guanhang Wu V. Rathod Ronny Votel Jonathan Huang ObjD 109 116 0 07 Dec 2019