ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,118 papers shown

Title
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder K. Gouthaman Anurag Mittal 98 79 0 13 Jul 2020
Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training Yingwei Pan Yehao Li Jianjie Luo Jun Xu Ting Yao Tao Mei 100 59 0 05 Jul 2020
Multimodal Text Style Transfer for Outdoor Vision-and-Language Navigation Wanrong Zhu Xinze Wang Tsu-Jui Fu An Yan P. Narayana Kazoo Sone Sugato Basu Wenjie Wang 93 34 0 01 Jul 2020
Modality-Agnostic Attention Fusion for visual search with text feedback Eric Dodds Jack Culpepper Simão Herdade Yang Zhang K. Boakye EgoV 100 74 0 30 Jun 2020
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph Fei Yu Jiji Tang Weichong Yin Yu Sun Hao Tian Hua Wu Haifeng Wang 130 382 0 30 Jun 2020
Ontology-guided Semantic Composition for Zero-Shot Learning Jiaoyan Chen Freddy Lecue Yuxia Geng Jeff Z. Pan Huajun Chen VLM 95 17 0 30 Jun 2020
$Improving VQA and its Explanations \\ by Comparing Competing Explanations$ Improving VQA and its Explanations \\ by Comparing Competing Explanations Jialin Wu Liyan Chen Raymond J. Mooney FAtt AAML 88 18 0 28 Jun 2020
Video-Grounded Dialogues with Pretrained Generation Language Models Hung Le Guosheng Lin 82 28 0 27 Jun 2020
Unsupervised Video Decomposition using Spatio-temporal Iterative Inference Polina Zablotskaia E. Dominici Leonid Sigal Andreas M. Lehrmann OCL 145 20 0 25 Jun 2020
Comprehensive Information Integration Modeling Framework for Video Titling Shengyu Zhang Ziqi Tan Jin Yu Zhou Zhao Kun Kuang Tan Jiang Jingren Zhou Hongxia Yang Leilei Gan 105 40 0 24 Jun 2020
Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" Saeed Amizadeh Hamid Palangi Oleksandr Polozov Yichen Huang K. Koishida NAI LRM 121 60 0 20 Jun 2020
Overcoming Statistical Shortcuts for Open-ended Visual Counting Corentin Dancette Rémi Cadène Xinlei Chen Matthieu Cord 36 3 0 17 Jun 2020
Contrastive Learning for Weakly Supervised Phrase Grounding Tanmay Gupta Arash Vahdat Gal Chechik Xiaodong Yang Jan Kautz Derek Hoiem ObjD SSL 171 144 0 17 Jun 2020
Learning Visual Commonsense for Robust Scene Graph Generation Alireza Zareian Zhecan Wang Haoxuan You Shih-Fu Chang 102 311 0 17 Jun 2020
VirTex: Learning Visual Representations from Textual Annotations Karan Desai Justin Johnson SSL VLM 173 437 0 11 Jun 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 136 501 0 11 Jun 2020
M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training Minheng Ni Haoyang Huang Lin Su Edward Cui Taroon Bharti Lijuan Wang Jianfeng Gao Dongdong Zhang Nan Duan 56 7 0 04 Jun 2020
TRIE: End-to-End Text Reading and Information Extraction for Document Understanding Peng Zhang Yunlu Xu Zhanzhan Cheng Shiliang Pu Jing Lu Liang Qiao Yi Niu Leilei Gan SyDa 95 103 0 27 May 2020
FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval D. Gao Linbo Jin Ben Chen Minghui Qiu Peng Li Yi Wei Yitao Hu Haozhe Jasper Wang OOD 84 134 0 20 May 2020
Human Instruction-Following with Deep Reinforcement Learning via Transfer-Learning from Text Felix Hill Soňa Mokrá Nathaniel Wong Tim Harley LM&Ro 101 82 0 19 May 2020
IMoJIE: Iterative Memory-Based Joint Open Information Extraction Keshav Kolluru Samarth Aggarwal Vipul Rathore Mausam Soumen Chakrabarti VLM 75 72 0 17 May 2020
Adaptive Transformers for Learning Multimodal Representations Prajjwal Bhargava 21 4 0 15 May 2020
Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models Jize Cao Zhe Gan Yu Cheng Licheng Yu Yen-Chun Chen Jingjing Liu VLM 123 130 0 15 May 2020
Machine Reading Comprehension: The Role of Contextualized Language Models and Beyond Zhuosheng Zhang Hai Zhao Rui Wang 115 63 0 13 May 2020
Cross-Modality Relevance for Reasoning on Language and Vision Chen Zheng Quan Guo Parisa Kordjamshidi LRM 88 36 0 12 May 2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 111 613 0 10 May 2020
History for Visual Dialog: Do we really need it? Shubham Agarwal Trung Bui Joon-Young Lee Ioannis Konstas Verena Rieser VLM 38 71 0 08 May 2020
MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis Devamanyu Hazarika Roger Zimmermann Soujanya Poria 113 720 0 07 May 2020
Cross-media Structured Common Space for Multimedia Event Extraction Manling Li Alireza Zareian Qi Zeng Spencer Whitehead Di Lu Heng Ji Shih-Fu Chang 80 103 0 05 May 2020
Words aren't enough, their order matters: On the Robustness of Grounding Visual Referring Expressions Arjun Reddy Akula Spandana Gella Yaser Al-Onaizan Song-Chun Zhu Siva Reddy ObjD 69 52 0 04 May 2020
Visually Grounded Continual Learning of Compositional Phrases Xisen Jin Junyi Du Arka Sadhu Ram Nevatia Xiang Ren CLL 61 4 0 02 May 2020
Probing Contextual Language Models for Common Ground with Visual Representations Gabriel Ilharco Rowan Zellers Ali Farhadi Hannaneh Hajishirzi 118 14 0 01 May 2020
Visuo-Linguistic Question Answering (VLQA) Challenge Shailaja Keyur Sampat Yezhou Yang Chitta Baral CoGe 28 1 0 01 May 2020
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training Linjie Li Yen-Chun Chen Yu Cheng Zhe Gan Licheng Yu Jingjing Liu MLLM VLM OffRL AI4TS 158 507 0 01 May 2020
Crisscrossed Captions: Extended Intramodal and Intermodal Semantic Similarity Judgments for MS-COCO Zarana Parekh Jason Baldridge Daniel Cer Austin Waters Yinfei Yang 78 62 0 30 Apr 2020
Improving Vision-and-Language Navigation with Image-Text Pairs from the Web Arjun Majumdar Ayush Shrivastava Stefan Lee Peter Anderson Devi Parikh Dhruv Batra LM&Ro 199 236 0 30 Apr 2020
Span-based Localizing Network for Natural Language Video Localization Hao Zhang Aixin Sun Wei Jing Qiufeng Wang 113 316 0 29 Apr 2020
Heterogeneous Representation Learning: A Review Qiufeng Wang Xi Peng Yew-Soon Ong 22 0 0 28 Apr 2020
VD-BERT: A Unified Vision and Dialog Transformer with BERT Yue Wang Shafiq Joty Michael R. Lyu Irwin King Caiming Xiong Guosheng Lin 120 104 0 28 Apr 2020
Deep Multimodal Neural Architecture Search Zhou Yu Yuhao Cui Jun-chen Yu Meng Wang Dacheng Tao Qi Tian 75 100 0 25 Apr 2020
VisualCOMET: Reasoning about the Dynamic Context of a Still Image J. S. Park Chandra Bhagavatula Roozbeh Mottaghi Ali Farhadi Yejin Choi ReLM LRM 75 6 0 22 Apr 2020
Experience Grounds Language Yonatan Bisk Ari Holtzman Jesse Thomason Jacob Andreas Yoshua Bengio ... Angeliki Lazaridou Jonathan May Aleksandr Nisnevich Nicolas Pinto Joseph P. Turian 126 361 0 21 Apr 2020
Transformer Reasoning Network for Image-Text Matching and Retrieval Nicola Messina Fabrizio Falchi Andrea Esuli Giuseppe Amato ViT 68 58 0 20 Apr 2020
Are we pretraining it right? Digging deeper into visio-linguistic pretraining Amanpreet Singh Vedanuj Goswami Devi Parikh VLM 78 48 0 19 Apr 2020
lamBERT: Language and Action Learning Using Multimodal BERT Kazuki Miyazawa Tatsuya Aoki Takato Horii Takayuki Nagai SSL LM&Ro 85 12 0 15 Apr 2020
Coreferential Reasoning Learning for Language Representation Deming Ye Yankai Lin Jiaju Du Zhenghao Liu Peng Li Maosong Sun Zhiyuan Liu 87 179 0 15 Apr 2020
Relation Transformer Network Rajat Koner Poulami Sinhamahapatra Volker Tresp ViT 109 33 0 13 Apr 2020
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu ... Houdong Hu Li Dong Furu Wei Yejin Choi Jianfeng Gao VLM 215 1,955 0 13 Apr 2020
An Entropy Clustering Approach for Assessing Visual Question Difficulty K. Terao Toru Tamaki B. Raytchev K. Kaneda Shuníchi Satoh OOD AAML 60 1 0 12 Apr 2020
Rephrasing visual questions by specifying the entropy of the answer distribution K. Terao Toru Tamaki B. Raytchev K. Kaneda S. Satoh OOD 44 2 0 10 Apr 2020