VisualBERT: A Simple and Performant Baseline for Vision and Language

9 August 2019

Papers citing "VisualBERT: A Simple and Performant Baseline for Vision and Language"

50 / 1,200 papers shown

Title
Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion Xiang Chen Ningyu Zhang Lei Li Shumin Deng Chuanqi Tan Changliang Xu Fei Huang Luo Si Huajun Chen 121 138 0 04 May 2022
All You May Need for VQA are Image Captions Soravit Changpinyo Doron Kukliansky Idan Szpektor Xi Chen Nan Ding Radu Soricut 101 76 0 04 May 2022
Visual Commonsense in Pretrained Unimodal and Multimodal Models Chenyu Zhang Benjamin Van Durme Zhuowan Li Elias Stengel-Eskin VLM SSL 79 41 0 04 May 2022
i-Code: An Integrative and Composable Multimodal Learning Framework Ziyi Yang Yuwei Fang Chenguang Zhu Reid Pryzant DongDong Chen ... Bin Xiao Yuanxun Lu Takuya Yoshioka Michael Zeng Xuedong Huang 107 49 0 03 May 2022
Detection of Propaganda Techniques in Visuo-Lingual Metaphor in Memes Sunil Gundapu R. Mamidi 62 2 0 03 May 2022
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering A. Piergiovanni Wei Li Weicheng Kuo M. Saffar Fred Bertsch A. Angelova 77 16 0 02 May 2022
Visual Spatial Reasoning Fangyu Liu Guy Edward Toh Emerson Nigel Collier ReLM 131 185 0 30 Apr 2022
PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining Yuting Gao Jinfeng Liu Zihan Xu Jinchao Zhang Ke Li Rongrong Ji Chunhua Shen VLM CLIP 133 104 0 29 Apr 2022
Vision-Language Pre-Training for Boosting Scene Text Detectors Sibo Song Jianqiang Wan Zhibo Yang Jun Tang Wenqing Cheng Xiang Bai Cong Yao VLM 121 24 0 29 Apr 2022
Reliable Visual Question Answering: Abstain Rather Than Answer Incorrectly Spencer Whitehead Suzanne Petryk Vedaad Shakib Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach 103 56 0 28 Apr 2022
Progressive Learning for Image Retrieval with Hybrid-Modality Queries Yida Zhao Yuqing Song Qin Jin 80 29 0 24 Apr 2022
RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning Xiaojian Ma Weili Nie Zhiding Yu Huaizu Jiang Chaowei Xiao Yuke Zhu Song-Chun Zhu Anima Anandkumar ViT LRM 131 19 0 24 Apr 2022
Training and challenging models for text-guided fashion image retrieval Eric Dodds Jack Culpepper Gaurav Srivastava 65 9 0 23 Apr 2022
A Multi-level Alignment Training Scheme for Video-and-Language Grounding Yubo Zhang Feiyang Niu Q. Ping Govind Thattai CVBM 87 2 0 22 Apr 2022
Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval Zhiqiang Yuan Wenkai Zhang Kun Fu Xuan Li Chubo Deng Hongqi Wang Xian Sun 99 139 0 21 Apr 2022
Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing Benedikt Boecking Naoto Usuyama Shruthi Bannur Daniel Coelho De Castro Anton Schwaighofer ... Tristan Naumann A. Nori Javier Alvarez-Valle Hoifung Poon Ozan Oktay 89 247 0 21 Apr 2022
Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval Mustafa Shukor Guillaume Couairon Asya Grechka Matthieu Cord ViT 89 19 0 20 Apr 2022
K-LITE: Learning Transferable Visual Models with External Knowledge Sheng Shen Chunyuan Li Xiaowei Hu Jianwei Yang Yujia Xie ... Ce Liu Kurt Keutzer Trevor Darrell Anna Rohrbach Jianfeng Gao CLIP VLM 70 85 0 20 Apr 2022
Imagination-Augmented Natural Language Understanding Yujie Lu Wanrong Zhu Xinze Wang Miguel P. Eckstein William Yang Wang 62 24 0 18 Apr 2022
Visio-Linguistic Brain Encoding Subba Reddy Oota Jashn Arora Vijay Rowtula Manish Gupta R. Bapi AI4CE 48 18 0 18 Apr 2022
End-to-end Dense Video Captioning as Sequence Generation Wanrong Zhu Bo Pang Ashish V. Thapliyal William Yang Wang Radu Soricut DiffM 51 34 0 18 Apr 2022
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks Gen Luo Yiyi Zhou Xiaoshuai Sun Yan Wang Liujuan Cao Yongjian Wu Feiyue Huang Rongrong Ji ViT 64 47 0 16 Apr 2022
Vision-and-Language Pretrained Models: A Survey Siqu Long Feiqi Cao S. Han Haiqing Yang VLM 111 65 0 15 Apr 2022
XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding Chan-Jan Hsu Hung-yi Lee Yu Tsao VLM 42 3 0 15 Apr 2022
X-DETR: A Versatile Architecture for Instance-wise Vision-Language Tasks Zhaowei Cai Gukyeong Kwon Avinash Ravichandran Erhan Bas Zhuowen Tu Rahul Bhotika Stefano Soatto ObjD MLLM VLM 67 50 0 12 Apr 2022
Are Multimodal Transformers Robust to Missing Modality? Mengmeng Ma Jian Ren Long Zhao Davide Testuggine Xi Peng ViT 111 155 0 12 Apr 2022
Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource Parallel Data Yunxing Kang Tianqiao Liu Hang Li Y. Hao Wenbiao Ding 72 8 0 10 Apr 2022
Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross CoGe 150 429 0 07 Apr 2022
SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering Vipul Gupta Zhuowan Li Adam Kortylewski Chenyu Zhang Yingwei Li Alan Yuille 79 46 0 05 Apr 2022
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances Michael Ahn Anthony Brohan Noah Brown Yevgen Chebotar Omar Cortes ... Ted Xiao Peng Xu Sichun Xu Mengyuan Yan Andy Zeng LM&Ro 220 1,990 0 04 Apr 2022
On Explaining Multimodal Hateful Meme Detection Models Ming Shan Hee Roy Ka-wei Lee Wen-Haw Chong VLM 107 41 0 04 Apr 2022
FindIt: Generalized Localization with Natural Language Queries Weicheng Kuo Fred Bertsch Wei Li A. Piergiovanni M. Saffar A. Angelova ObjD 88 17 0 31 Mar 2022
SimVQA: Exploring Simulated Environments for Visual Question Answering Paola Cascante-Bonilla Hui Wu Letao Wang Rogerio Feris Vicente Ordonez 84 7 0 31 Mar 2022
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval S. Gorti Noël Vouitsis Junwei Ma Keyvan Golestan M. Volkovs Animesh Garg Guangwei Yu 101 162 0 28 Mar 2022
Image-text Retrieval: A Survey on Recent Research and Development Min Cao Shiping Li Juntao Li Liqiang Nie Min Zhang 97 85 0 28 Mar 2022
Large-scale Bilingual Language-Image Contrastive Learning ByungSoo Ko Geonmo Gu VLM 112 14 0 28 Mar 2022
Single-Stream Multi-Level Alignment for Vision-Language Pretraining Zaid Khan B. Vijaykumar Xiang Yu S. Schulter Manmohan Chandraker Y. Fu CLIP VLM 125 17 0 27 Mar 2022
Deep Multi-modal Fusion of Image and Non-image Data in Disease Diagnosis and Prognosis: A Review C. Cui Haichun Yang Yaohong Wang Shilin Zhao Zuhayr Asad Lori A. Coburn K. Wilson Bennett A. Landman Yuankai Huo 123 103 0 25 Mar 2022
Graph-Text Multi-Modal Pre-training for Medical Representation Learning Sungjin Park Seongsu Bae Jiho Kim Tackeun Kim Edward Choi 27 18 0 18 Mar 2022
Finding Structural Knowledge in Multimodal-BERT Victor Milewski Miryam de Lhoneux Marie-Francine Moens 72 10 0 17 Mar 2022
UNIMO-2: End-to-End Unified Vision-Language Grounded Learning Wei Li Can Gao Guocheng Niu Xinyan Xiao Hao Liu Jiachen Liu Hua Wu Haifeng Wang MLLM 51 22 0 17 Mar 2022
DU-VLG: Unifying Vision-and-Language Generation via Dual Sequence-to-Sequence Pre-training Luyang Huang Guocheng Niu Jiachen Liu Xinyan Xiao Hua Wu VLM CoGe 53 8 0 17 Mar 2022
Do BERTs Learn to Use Browser User Interface? Exploring Multi-Step Tasks with Unified Vision-and-Language BERTs Taichi Iki Akiko Aizawa LLMAG 66 6 0 15 Mar 2022
Can you even tell left from right? Presenting a new challenge for VQA Sairaam Venkatraman Rishi Rao S. Balasubramanian C. Vorugunti R. R. Sarma CoGe 81 0 0 15 Mar 2022
CARETS: A Consistency And Robustness Evaluative Test Suite for VQA Carlos E. Jimenez Olga Russakovsky Karthik Narasimhan CoGe 84 14 0 15 Mar 2022
Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer Woojeong Jin Dong-Ho Lee Chenguang Zhu Jay Pujara Xiang Ren CLIP VLM 75 10 0 14 Mar 2022
Contrastive Visual Semantic Pretraining Magnifies the Semantics of Natural Language Representations Robert Wolfe Aylin Caliskan VLM 67 14 0 14 Mar 2022
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation Wenliang Dai Lu Hou Lifeng Shang Xin Jiang Qun Liu Pascale Fung VLM 92 94 0 12 Mar 2022
The Principle of Diversity: Training Stronger Vision Transformers Calls for Reducing All Levels of Redundancy Tianlong Chen Zhenyu Zhang Yu Cheng Ahmed Hassan Awadallah Zhangyang Wang ViT 109 42 0 12 Mar 2022
LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text Retrieval Jie Lei Xinlei Chen Ning Zhang Meng-xing Wang Joey Tianyi Zhou Tamara L. Berg Licheng Yu 115 12 0 10 Mar 2022