ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,119 papers shown

Title
Where Does the Performance Improvement Come From? -- A Reproducibility Concern about Image-Text Retrieval Jun Rao Fei Wang Liang Ding Shuhan Qi Yibing Zhan Weifeng Liu Dacheng Tao OOD 89 30 0 08 Mar 2022
Image Search with Text Feedback by Additive Attention Compositional Learning Yuxin Tian Shawn D. Newsam K. Boakye CoGe 70 13 0 08 Mar 2022
Modeling Coreference Relations in Visual Dialog Mingxiao Li Marie-Francine Moens 51 10 0 06 Mar 2022
Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence Grounding Daizong Liu Xiang Fang Wei Hu Pan Zhou 102 37 0 06 Mar 2022
Vision-Language Intelligence: Tasks, Representation Learning, and Large Models Feng Li Hao Zhang Yi-Fan Zhang Shixuan Liu Jian Guo L. Ni Pengchuan Zhang Lei Zhang AI4TS VLM 83 37 0 03 Mar 2022
LILE: Look In-Depth before Looking Elsewhere -- A Dual Attention Network using Transformers for Cross-Modal Information Retrieval in Histopathology Archives Danial Maleki H. R Tizhoosh MedIm 89 12 0 02 Mar 2022
High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning Paul Pu Liang Yiwei Lyu Xiang Fan Jeffrey Tsaw Yudong Liu Shentong Mo Dani Yogatama Louis-Philippe Morency Ruslan Salakhutdinov 96 33 0 02 Mar 2022
Recent, rapid advancement in visual question answering architecture: a review V. Kodali Daniel Berleant 92 9 0 02 Mar 2022
Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular Alignment Mingyang Zhou Licheng Yu Amanpreet Singh Mengjiao MJ Wang Zhou Yu Ning Zhang VLM 82 31 0 01 Mar 2022
Multi-modal Alignment using Representation Codebook Jiali Duan Liqun Chen Son Tran Jinyu Yang Yi Xu Belinda Zeng Trishul Chilimbi 124 68 0 28 Feb 2022
LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding Jiapeng Wang Lianwen Jin Kai Ding VLM 92 143 0 28 Feb 2022
SGL: Symbolic Goal Learning in a Hybrid, Modular Framework for Human Instruction Following Ruinian Xu Hongyi Chen Yunzhi Lin Patricio A. Vela 66 6 0 25 Feb 2022
Joint Answering and Explanation for Visual Commonsense Reasoning Zhenyang Li Yangyang Guo Ke-Jyun Wang Yin-wei Wei Liqiang Nie Mohan S. Kankanhalli 86 17 0 25 Feb 2022
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models Spyridon Mouselinos Henryk Michalewski Mateusz Malinowski 69 3 0 24 Feb 2022
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev LM&Ro 94 150 0 23 Feb 2022
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 310 529 0 22 Feb 2022
COMPASS: Contrastive Multimodal Pretraining for Autonomous Systems Shuang Ma Sai H. Vemprala Wenshan Wang Jayesh K. Gupta Yale Song Daniel J. McDuff Ashish Kapoor SSL 78 9 0 20 Feb 2022
A Survey of Vision-Language Pre-Trained Models Yifan Du Zikang Liu Junyi Li Wayne Xin Zhao VLM 178 190 0 18 Feb 2022
AMS_ADRN at SemEval-2022 Task 5: A Suitable Image-text Multimodal Joint Modeling Method for Multi-task Misogyny Identification Da Li Ming Yi Yukai He 29 1 0 18 Feb 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 186 228 0 18 Feb 2022
When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs Oana Ignat Santiago Castro Yuhang Zhou Jiajun Bao Dandan Shan Rada Mihalcea 59 3 0 16 Feb 2022
XFBoost: Improving Text Generation with Controllable Decoders Xiangyu Peng Michael Sollami 75 1 0 16 Feb 2022
Not All Patches are What You Need: Expediting Vision Transformers via Token Reorganizations Youwei Liang Chongjian Ge Zhan Tong Yibing Song Jue Wang P. Xie ViT 81 255 0 16 Feb 2022
Privacy Preserving Visual Question Answering Cristian-Paul Bara Q. Ping Abhinav Mathur Govind Thattai M. Rohith Gaurav Sukhatme 111 1 0 15 Feb 2022
ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer Kohei Uehara Yusuke Mori Yusuke Mukuta Tatsuya Harada 110 6 0 15 Feb 2022
CommerceMM: Large-Scale Commerce MultiModal Representation Learning with Omni Retrieval Licheng Yu Jun Chen Animesh Sinha Mengjiao MJ Wang Hugo Chen Tamara L. Berg Ning Zhang VLM 98 39 0 15 Feb 2022
Do Lessons from Metric Learning Generalize to Image-Caption Retrieval? Maurits J. R. Bleeker Maarten de Rijke SSL DML 55 9 0 14 Feb 2022
Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark Jiaxi Gu Xiaojun Meng Guansong Lu Lu Hou Minzhe Niu ... Runhu Huang Wei Zhang Xingda Jiang Chunjing Xu Hang Xu VLM 187 95 0 14 Feb 2022
UserBERT: Modeling Long- and Short-Term User Preferences via Self-Supervision Tianyu Li Ali Cevahir Derek Cho Hao Gong Duy Nguyen B. Stenger SSL 34 1 0 14 Feb 2022
Can Open Domain Question Answering Systems Answer Visual Knowledge Questions? Jiawen Zhang Abhijit Mishra Avinesh P.V.S Siddharth Patwardhan Sachin Agarwal 77 0 0 09 Feb 2022
Image Difference Captioning with Pre-training and Contrastive Learning Linli Yao Weiying Wang Qin Jin SSL VLM 86 43 0 09 Feb 2022
Robotic Grasping from Classical to Modern: A Survey Hanbo Zhang Jian Tang Shiguang Sun Xuguang Lan 97 41 0 08 Feb 2022
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework Peng Wang An Yang Rui Men Junyang Lin Shuai Bai Zhikang Li Jianxin Ma Chang Zhou Jingren Zhou Hongxia Yang MLLM ObjD 268 884 0 07 Feb 2022
Webly Supervised Concept Expansion for General Purpose Vision Models Amita Kamath Christopher Clark Tanmay Gupta Eric Kolve Derek Hoiem Aniruddha Kembhavi VLM 97 55 0 04 Feb 2022
Pre-Trained Language Models for Interactive Decision-Making Shuang Li Xavier Puig Chris Paxton Yilun Du Clinton Jia Wang ... Anima Anandkumar Jacob Andreas Igor Mordatch Antonio Torralba Yuke Zhu LM&Ro 154 264 0 03 Feb 2022
MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning Zejun Li Zhihao Fan Huaixiao Tou Jingjing Chen Zhongyu Wei Xuanjing Huang 88 18 0 29 Jan 2022
Kernelized Concept Erasure Shauli Ravfogel Francisco Vargas Yoav Goldberg Ryan Cotterell 70 35 0 28 Jan 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 586 4,444 0 28 Jan 2022
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages Emanuele Bugliarello Fangyu Liu Jonas Pfeiffer Siva Reddy Desmond Elliott Edoardo Ponti Ivan Vulić MLLM VLM ELM 125 64 0 27 Jan 2022
MGA-VQA: Multi-Granularity Alignment for Visual Question Answering Peixi Xiong Yilin Shen Hongxia Jin 37 5 0 25 Jan 2022
SA-VQA: Structured Alignment of Visual and Semantic Representations for Visual Question Answering Peixi Xiong Quanzeng You Pei Yu Zicheng Liu Ying Wu 65 5 0 25 Jan 2022
Text and Code Embeddings by Contrastive Pre-Training Arvind Neelakantan Tao Xu Raul Puri Alec Radford Jesse Michael Han ... Tabarak Khan Toki Sherbakov Joanne Jang Peter Welinder Lilian Weng SSL AI4TS 401 446 0 24 Jan 2022
Do Smart Glasses Dream of Sentimental Visions? Deep Emotionship Analysis for Eyewear Devices Yingying Zhao Yuhu Chang Yutian Lu Yujiang Wang Mingzhi Dong ... Robert P. Dick Fan Yang Tun Lu Ning Gu L. Shang 78 10 0 24 Jan 2022
Learning to Act with Affordance-Aware Multimodal Neural SLAM Zhiwei Jia Kaixiang Lin Yizhou Zhao Qiaozi Gao Govind Thattai Gaurav Sukhatme LM&Ro 93 15 0 24 Jan 2022
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis Georgios Paraskevopoulos Efthymios Georgiou Alexandros Potamianos 70 27 0 24 Jan 2022
Question Generation for Evaluating Cross-Dataset Shifts in Multi-modal Grounding Arjun Reddy Akula OOD 116 3 0 24 Jan 2022
Supervised Visual Attention for Simultaneous Multimodal Machine Translation Veneta Haralampieva Ozan Caglayan Lucia Specia LRM 75 4 0 23 Jan 2022
A Pre-trained Audio-Visual Transformer for Emotion Recognition Minh Tran M. Soleymani 107 26 0 23 Jan 2022
Omnivore: A Single Model for Many Visual Modalities Rohit Girdhar Mannat Singh Nikhil Ravi Laurens van der Maaten Armand Joulin Ishan Misra 292 237 0 20 Jan 2022
End-to-end Generative Pretraining for Multimodal Video Captioning Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid 89 170 0 20 Jan 2022