ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,118 papers shown

Title
MiniVLM: A Smaller and Faster Vision-Language Model Jianfeng Wang Xiaowei Hu Pengchuan Zhang Xiujun Li Lijuan Wang Lefei Zhang Jianfeng Gao Zicheng Liu VLM MLLM 133 60 0 13 Dec 2020
Look Before you Speak: Visually Contextualized Utterances Paul Hongsuck Seo Arsha Nagrani Cordelia Schmid 99 67 0 10 Dec 2020
Topological Planning with Transformers for Vision-and-Language Navigation Kevin Chen Junshen K. Chen Jo Chuang Nathan Tsoi Silvio Savarese LM&Ro 100 101 0 09 Dec 2020
Hateful Memes Detection via Complementary Visual and Linguistic Networks W. Zhang Guihua Liu Zhuohua Li Fuqing Zhu 62 19 0 09 Dec 2020
TAP: Text-Aware Pre-training for Text-VQA and Text-Caption Zhengyuan Yang Yijuan Lu Jianfeng Wang Xi Yin D. Florêncio Lijuan Wang Cha Zhang Lei Zhang Jiebo Luo VLM 107 144 0 08 Dec 2020
Parameter Efficient Multimodal Transformers for Video Representation Learning Sangho Lee Youngjae Yu Gunhee Kim Thomas Breuel Jan Kautz Yale Song ViT 104 78 0 08 Dec 2020
Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation Jeff Da Maxwell Forbes Rowan Zellers Anthony Zheng Jena D. Hwang Antoine Bosselut Yejin Choi DiffM 87 13 0 08 Dec 2020
WeaQA: Weak Supervision via Captions for Visual Question Answering Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral 110 36 0 04 Dec 2020
Understanding Guided Image Captioning Performance across Domains Edwin G. Ng Bo Pang P. Sharma Radu Soricut 118 25 0 04 Dec 2020
Classification of Multimodal Hate Speech -- The Winning Solution of Hateful Memes Challenge Xiayu Zhong 59 15 0 02 Dec 2020
Open-Ended Multi-Modal Relational Reasoning for Video Question Answering Haozheng Luo Ruiyang Qin Chenwei Xu Guo Ye Zening Luo 106 4 0 01 Dec 2020
Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs Emanuele Bugliarello Ryan Cotterell Naoaki Okazaki Desmond Elliott 102 120 0 30 Nov 2020
Point and Ask: Incorporating Pointing into Visual Question Answering Arjun Mani Nobline Yoo William Fu-Hinthorn Olga Russakovsky 3DPC 82 38 0 27 Nov 2020
Learning from Lexical Perturbations for Consistent Visual Question Answering Spencer Whitehead Hui Wu Yi R. Fung Heng Ji Rogerio Feris Kate Saenko 70 11 0 26 Nov 2020
A Recurrent Vision-and-Language BERT for Navigation Yicong Hong Qi Wu Yuankai Qi Cristian Rodriguez-Opazo Stephen Gould LM&Ro 128 304 0 26 Nov 2020
Multimodal Learning for Hateful Memes Detection Yi Zhou Zhenhao Chen 96 61 0 25 Nov 2020
Open-Vocabulary Object Detection Using Captions Alireza Zareian Kevin Dela Rosa Derek Hao Hu Shih-Fu Chang VLM ObjD 196 436 0 20 Nov 2020
EasyTransfer -- A Simple and Scalable Deep Transfer Learning Platform for NLP Applications Minghui Qiu Peng Li Chengyu Wang Hanjie Pan Yaliang Li ... Jun Yang Yaliang Li Jun Huang Deng Cai Wei Lin VLM SyDa 114 20 0 18 Nov 2020
A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus Bowen Zhang Hexiang Hu Joonseok Lee Mingde Zhao Sheide Chammas Vihan Jain Eugene Ie Fei Sha 92 34 0 18 Nov 2020
Generating Natural Questions from Images for Multimodal Assistants Alkesh Patel Akanksha Bindal Hadas Kotek Christopher Klein Jason D. Williams VGen 100 7 0 17 Nov 2020
Improving Calibration in Deep Metric Learning With Cross-Example Softmax Andreas Veit Kimberly Wilber 24 2 0 17 Nov 2020
iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering Aman Chadha Gurneet Arora Navpreet Kaloty 66 37 0 16 Nov 2020
ActBERT: Learning Global-Local Video-Text Representations Linchao Zhu Yi Yang ViT 137 423 0 14 Nov 2020
Multimodal Pretraining for Dense Video Captioning Gabriel Huang Bo Pang Zhenhai Zhu Clara E. Rivera Radu Soricut 96 87 0 10 Nov 2020
Human-centric Spatio-Temporal Video Grounding With Visual Transformers Zongheng Tang Yue Liao Si Liu Guanbin Li Xiaojie Jin Hongxu Jiang Qian Yu Dong Xu 68 99 0 10 Nov 2020
Long Range Arena: A Benchmark for Efficient Transformers Yi Tay Mostafa Dehghani Samira Abnar Songlin Yang Dara Bahri Philip Pham J. Rao Liu Yang Sebastian Ruder Donald Metzler 171 731 0 08 Nov 2020
Training Transformers for Information Security Tasks: A Case Study on Malicious URL Prediction Ethan M. Rudd Ahmed Abdallah 55 5 0 05 Nov 2020
Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings Yue Wang Jing Li Michael R. Lyu Irwin King 75 16 0 03 Nov 2020
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox ViT CLIP 81 174 0 01 Nov 2020
Leveraging Visual Question Answering to Improve Text-to-Image Synthesis Stanislav Frolov Shailza Jolly Jörn Hees Andreas Dengel EGVM 50 5 0 28 Oct 2020
Co-attentional Transformers for Story-Based Video Understanding Björn Bebensee Byoung-Tak Zhang 39 7 0 27 Oct 2020
MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering Aisha Urooj Khan Amir Mazaheri N. Lobo M. Shah 97 57 0 27 Oct 2020
Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions Radhika Dua Sai Srinivas Kancheti V. Balasubramanian LRM 88 22 0 24 Oct 2020
Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions Liunian Harold Li Haoxuan You Zhecan Wang Alireza Zareian Shih-Fu Chang Kai-Wei Chang SSL VLM 101 12 0 24 Oct 2020
Multilingual Speech Translation with Efficient Finetuning of Pretrained Models Xian Li Changhan Wang Yun Tang C. Tran Yuqing Tang J. Pino Alexei Baevski Alexis Conneau Michael Auli 62 6 0 24 Oct 2020
Can images help recognize entities? A study of the role of images for Multimodal NER Shuguang Chen Gustavo Aguilar Leonardo Neves Thamar Solorio EgoV 90 37 0 23 Oct 2020
GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight Gated Injection Method Nicole Peinelt Marek Rei Maria Liakata 59 2 0 23 Oct 2020
ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding Minjeong Kim Gyuwan Kim Sang-Woo Lee Jung-Woo Ha VLM 78 36 0 23 Oct 2020
Language-Conditioned Imitation Learning for Robot Manipulation Tasks Simon Stepputtis Joseph Campbell Mariano Phielipp Stefan Lee Chitta Baral H. B. Amor LM&Ro 200 205 0 22 Oct 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 783 41,945 0 22 Oct 2020
Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies Itai Gat Idan Schwartz Alex Schwing Tamir Hazan 106 92 0 21 Oct 2020
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends Shagun Uppal Sarthak Bhagat Devamanyu Hazarika Navonil Majumdar Soujanya Poria Roger Zimmermann Amir Zadeh 101 6 0 19 Oct 2020
Towards Data Distillation for End-to-end Spoken Conversational Question Answering Chenyu You Nuo Chen Fenglin Liu Dongchao Yang Yuexian Zou 77 48 0 18 Oct 2020
Knowledge-Grounded Dialogue Generation with Pre-trained Language Models Xueliang Zhao Wei Wu Can Xu Chongyang Tao Dongyan Zhao Rui Yan 260 193 0 17 Oct 2020
Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question Answering Hantao Huang Tao Han Wei Han D. Yap Cheng-Ming Chiang 30 4 0 17 Oct 2020
Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive Learning Wanyun Cui Guangyu Zheng Wei Wang SSL 52 21 0 16 Oct 2020
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs Ana Marasović Chandra Bhagavatula J. S. Park Ronan Le Bras Noah A. Smith Yejin Choi ReLM LRM 99 62 0 15 Oct 2020
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision Hao Tan Joey Tianyi Zhou CLIP 89 121 0 14 Oct 2020
A Multi-Modal Method for Satire Detection using Textual and Visual Cues Lily Li Or Levi Pedram Hosseini David A. Broniatowski 47 21 0 13 Oct 2020
CAPT: Contrastive Pre-Training for Learning Denoised Sequence Representations Fuli Luo Pengcheng Yang Shicheng Li Xuancheng Ren Xu Sun VLM SSL 73 16 0 13 Oct 2020