ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,119 papers shown

Title
Multimodal Fusion Refiner Networks Sethuraman Sankaran David Yang Ser-Nam Lim OffRL 70 8 0 08 Apr 2021
Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question Answering Corentin Dancette Rémi Cadène Damien Teney Matthieu Cord CML 96 78 0 07 Apr 2021
Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning Zhicheng Huang Zhaoyang Zeng Yupan Huang Bei Liu Dongmei Fu Jianlong Fu VLM ViT 160 274 0 07 Apr 2021
Compressing Visual-linguistic Model via Knowledge Distillation Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lijuan Wang Yezhou Yang Zicheng Liu VLM 120 99 0 05 Apr 2021
MMBERT: Multimodal BERT Pretraining for Improved Medical VQA Yash Khare Viraj Bagal Minesh Mathew Adithi Devi U. Priyakumar C. V. Jawahar MedIm 92 136 0 03 Apr 2021
VisQA: X-raying Vision and Language Reasoning in Transformers Theo Jaunet Corentin Kervadec Romain Vuillemot G. Antipov M. Baccouche Christian Wolf 68 26 0 02 Apr 2021
Towards General Purpose Vision Systems Tanmay Gupta Amita Kamath Aniruddha Kembhavi Derek Hoiem 103 53 0 01 Apr 2021
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training Mingyang Zhou Luowei Zhou Shuohang Wang Yu Cheng Linjie Li Zhou Yu Jingjing Liu MLLM VLM 99 92 0 01 Apr 2021
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning Luowei Zhou Jingjing Liu Yu Cheng Zhe Gan Lei Zhang 65 7 0 01 Apr 2021
A Survey on Natural Language Video Localization Xinfang Liu Xiushan Nie Zhifang Tan Jie Guo Yilong Yin 121 7 0 01 Apr 2021
StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery Or Patashnik Zongze Wu Eli Shechtman Daniel Cohen-Or Dani Lischinski CLIP VLM 228 1,213 0 31 Mar 2021
Diagnosing Vision-and-Language Navigation: What Really Matters Wanrong Zhu Yuankai Qi P. Narayana Kazoo Sone Sugato Basu Xinze Wang Qi Wu Miguel P. Eckstein Wenjie Wang LM&Ro 97 51 0 30 Mar 2021
Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers Antoine Miech Jean-Baptiste Alayrac Ivan Laptev Josef Sivic Andrew Zisserman ViT 106 139 0 30 Mar 2021
Kaleido-BERT: Vision-Language Pre-training on Fashion Domain Mingchen Zhuge D. Gao Deng-Ping Fan Linbo Jin Ben Chen Hao Zhou Minghui Qiu Ling Shao VLM 101 121 0 30 Mar 2021
Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays Xiaosong Wang Ziyue Xu Leo K. Tam Dong Yang Daguang Xu ViT MedIm 68 24 0 30 Mar 2021
Domain-robust VQA with diverse datasets and methods but no target labels Ruotong Wang Tristan D. Maidment Ahmad Diab Adriana Kovashka R. Hwa OOD 129 23 0 29 Mar 2021
Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers Hila Chefer Shir Gur Lior Wolf ViT 103 328 0 29 Mar 2021
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding Pengchuan Zhang Xiyang Dai Jianwei Yang Bin Xiao Lu Yuan Lei Zhang Jianfeng Gao ViT 116 337 0 29 Mar 2021
HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval Song Liu Haoqi Fan Shengsheng Qian Yiru Chen Wenkui Ding Zhongyuan Wang 116 147 0 28 Mar 2021
'Just because you are right, doesn't mean I am wrong': Overcoming a Bottleneck in the Development and Evaluation of Open-Ended Visual Question Answering (VQA) Tasks Man Luo Shailaja Keyur Sampat Riley Tallman Yankai Zeng Manuha Vancha Akarshan Sajja Chitta Baral 53 10 0 28 Mar 2021
Generating and Evaluating Explanations of Attended and Error-Inducing Input Regions for VQA Models Arijit Ray Michael Cogswell Xiaoyu Lin Kamran Alipour Ajay Divakaran Yi Yao Giedrius Burachas FAtt 40 4 0 26 Mar 2021
Understanding Robustness of Transformers for Image Classification Srinadh Bhojanapalli Ayan Chakrabarti Daniel Glasner Daliang Li Thomas Unterthiner Andreas Veit ViT 137 392 0 26 Mar 2021
Describing and Localizing Multiple Changes with Transformers Yue Qiu Shintaro Yamamoto Kodai Nakashima Ryota Suzuki K. Iwata Hirokatsu Kataoka Y. Satoh 93 59 0 25 Mar 2021
Visual Grounding Strategies for Text-Only Natural Language Processing Damien Sileo 45 8 0 25 Mar 2021
VLGrammar: Grounded Grammar Induction of Vision and Language Yining Hong Qing Li Song-Chun Zhu Siyuan Huang VLM 89 25 0 24 Mar 2021
Scene-Intuitive Agent for Remote Embodied Visual Grounding Xiangru Lin Guanbin Li Yizhou Yu LM&Ro 80 53 0 24 Mar 2021
Multi-Modal Answer Validation for Knowledge-Based VQA Jialin Wu Jiasen Lu Ashish Sabharwal Roozbeh Mottaghi 171 146 0 23 Mar 2021
Instance-level Image Retrieval using Reranking Transformers Fuwen Tan Jiangbo Yuan Vicente Ordonez ViT 172 93 0 22 Mar 2021
Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval Gregor Geigle Jonas Pfeiffer Nils Reimers Ivan Vulić Iryna Gurevych 116 60 0 22 Mar 2021
DeepViT: Towards Deeper Vision Transformer Daquan Zhou Bingyi Kang Xiaojie Jin Linjie Yang Xiaochen Lian Zihang Jiang Qibin Hou Jiashi Feng ViT 159 525 0 22 Mar 2021
Incorporating Convolution Designs into Visual Transformers Kun Yuan Shaopeng Guo Ziwei Liu Aojun Zhou F. Yu Wei Wu ViT 117 484 0 22 Mar 2021
MaAST: Map Attention with Semantic Transformersfor Efficient Visual Navigation Zachary Seymour Kowshik Thopalli Niluthpol Chowdhury Mithun Han-Pang Chiu S. Samarasekera Rakesh Kumar 3DPC 69 18 0 21 Mar 2021
Let Your Heart Speak in its Mother Tongue: Multilingual Captioning of Cardiac Signals Dani Kiyasseh T. Zhu David Clifton 124 0 0 19 Mar 2021
Variational Knowledge Distillation for Disease Classification in Chest X-Rays Tom van Sonsbeek Xiantong Zhen M. Worring Ling Shao 30 13 0 19 Mar 2021
Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning Mandela Patrick Yuki M. Asano Bernie Huang Ishan Misra Florian Metze Joao Henriques Andrea Vedaldi AI4TS 100 35 0 18 Mar 2021
Few-Shot Visual Grounding for Natural Human-Robot Interaction Georgios Tziafas S. Kasaei 88 7 0 17 Mar 2021
On the Role of Images for Analyzing Claims in Social Media Gullal Singh Cheema Sherzod Hakimov Eric Müller-Budack Ralph Ewerth 113 10 0 17 Mar 2021
Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models Po-Yao (Bernie) Huang Mandela Patrick Junjie Hu Graham Neubig Florian Metze Alexander G. Hauptmann MLLM VLM 111 57 0 16 Mar 2021
LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval Siqi Sun Yen-Chun Chen Linjie Li Shuohang Wang Yuwei Fang Jingjing Liu VLM 89 84 0 16 Mar 2021
SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels Chenliang Li Ming Yan Haiyang Xu Fuli Luo Wei Wang Bin Bi Songfang Huang VLM 74 36 0 14 Mar 2021
A Survey on Multimodal Disinformation Detection Firoj Alam S. Cresci Tanmoy Chakraborty Fabrizio Silvestri Dimiter Dimitrov Giovanni Da San Martino Shaden Shaar Hamed Firooz Preslav Nakov 92 102 0 13 Mar 2021
What is Multimodality? Letitia Parcalabescu Nils Trost Anette Frank 56 0 0 10 Mar 2021
Pretrained Transformers as Universal Computation Engines Kevin Lu Aditya Grover Pieter Abbeel Igor Mordatch 90 221 0 09 Mar 2021
Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision Andrew Shin Masato Ishii T. Narihira 142 39 0 06 Mar 2021
Causal Attention for Vision-Language Tasks Xu Yang Hanwang Zhang Guojun Qi Jianfei Cai CML 101 158 0 05 Mar 2021
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Krishna Srinivasan K. Raman Jiecao Chen Michael Bendersky Marc Najork VLM 286 322 0 02 Mar 2021
M6: A Chinese Multimodal Pretrainer Junyang Lin Rui Men An Yang Chan Zhou Ming Ding ... Yong Li Wei Lin Jingren Zhou J. Tang Hongxia Yang VLM MoE 159 134 0 01 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.1K 30,115 0 26 Feb 2021
UniT: Multimodal Multitask Learning with a Unified Transformer Ronghang Hu Amanpreet Singh ViT 106 301 0 22 Feb 2021
Learning Compositional Representation for Few-shot Visual Question Answering Dalu Guo Dacheng Tao OOD CoGe 64 4 0 21 Feb 2021