ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,119 papers shown

Title
SPRING: Situated Conversation Agent Pretrained with Multimodal Questions from Incremental Layout Graph Yuxing Long Binyuan Hui Fulong Ye Yanyang Li Zhuoxin Han Caixia Yuan Yongbin Li Xiaojie Wang LLMAG 65 8 0 05 Jan 2023
GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods Da Yin Feng Gao Govind Thattai Michael F. Johnston Kai-Wei Chang VLM 94 15 0 05 Jan 2023
BagFormer: Better Cross-Modal Retrieval via bag-wise interaction Haowen Hou Xiaopeng Yan Yigeng Zhang Fengzong Lian Zhanhui Kang BDL 48 0 0 29 Dec 2022
On Transforming Reinforcement Learning by Transformer: The Development Trajectory Shengchao Hu Li Shen Ya Zhang Yixin Chen Dacheng Tao OffRL 148 30 0 29 Dec 2022
Generalized Decoding for Pixel, Image, and Language Xueyan Zou Zi-Yi Dou Jianwei Yang Zhe Gan Linjie Li ... Lu Yuan Nanyun Peng Lijuan Wang Yong Jae Lee Jianfeng Gao VLM MLLM ObjD 137 259 0 21 Dec 2022
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models Jiaxian Guo Junnan Li Dongxu Li A. M. H. Tiong Boyang Albert Li Dacheng Tao Steven C. H. Hoi VLM MLLM 101 118 0 21 Dec 2022
Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason? Monika Wysoczañska Tom Monnier Tomasz Trzciñski David Picard ReLM OCL 75 1 0 20 Dec 2022
Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation Matthieu Futeral Cordelia Schmid Ivan Laptev Benoît Sagot Rachel Bawden 106 31 0 20 Dec 2022
InterMulti:Multi-view Multimodal Interactions with Text-dominated Hierarchical High-order Fusion for Emotion Analysis Feng Qiu Wanzeng Kong Yu-qiong Ding 85 2 0 20 Dec 2022
Are Deep Neural Networks SMARTer than Second Graders? A. Cherian Kuan-Chuan Peng Suhas Lohit Kevin A. Smith J. Tenenbaum AAML LRM ReLM 116 31 0 20 Dec 2022
Don't Generate, Discriminate: A Proposal for Grounding Language Models to Real-World Environments Yu Gu Xiang Deng Yu-Chuan Su LLMAG 127 58 0 19 Dec 2022
Transferring General Multimodal Pretrained Models to Text Recognition Junyang Lin Xuancheng Ren Yichang Zhang Gao Liu Peng Wang An Yang Chang Zhou 71 4 0 19 Dec 2022
Fully and Weakly Supervised Referring Expression Segmentation with End-to-End Learning Hui Li Mingjie Sun Jimin Xiao Eng Gee Lim Yao-Min Zhao 90 21 0 17 Dec 2022
MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks Letitia Parcalabescu Anette Frank 100 28 0 15 Dec 2022
Objaverse: A Universe of Annotated 3D Objects Matt Deitke Dustin Schwenk Jordi Salvador Luca Weihs Oscar Michel Eli VanderBilt Ludwig Schmidt Kiana Ehsani Aniruddha Kembhavi Ali Farhadi 138 974 0 15 Dec 2022
CLIPPO: Image-and-Language Understanding from Pixels Only Michael Tschannen Basil Mustafa N. Houlsby CLIP VLM 107 49 0 15 Dec 2022
Visually-augmented pretrained language models for NLP tasks without images Hangyu Guo Kun Zhou Wayne Xin Zhao Qinyu Zhang Ji-Rong Wen VLM 67 10 0 15 Dec 2022
Curriculum Learning Meets Weakly Supervised Modality Correlation Learning Sijie Mai Ya Sun Haifeng Hu 108 3 0 15 Dec 2022
Find Someone Who: Visual Commonsense Understanding in Human-Centric Grounding Haoxuan You Rui Sun Zhecan Wang Kai-Wei Chang Shih-Fu Chang 56 5 0 14 Dec 2022
TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities Zhe Zhao Yudong Li Cheng-An Hou Jing-xin Zhao Rong Tian ... Xingwu Sun Zhanhui Kang Xiaoyong Du Linlin Shen Kimmo Yan VLM 112 24 0 13 Dec 2022
Multimodal and Explainable Internet Meme Classification A. Thakur Filip Ilievski Hông-Ân Sandlin Zhivar Sourati Luca Luceri Riccardo Tommasini Alain Mermoud 78 6 0 11 Dec 2022
Using Multiple Instance Learning to Build Multimodal Representations Peiqi Wang W. Wells Seth Berkowitz Steven Horng Polina Golland SSL 65 6 0 11 Dec 2022
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi RALM VLM 112 96 0 10 Dec 2022
Uniform Masking Prevails in Vision-Language Pretraining Siddharth Verma Yuchen Lu Rui Hou Hanchao Yu Nicolas Ballas Madian Khabsa Amjad Almahairi VLM 55 0 0 10 Dec 2022
CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection Kevin Hyekang Joo Khoa T. Vo Kashu Yamazaki Ngan Le 88 51 0 09 Dec 2022
VindLU: A Recipe for Effective Video-and-Language Pretraining Feng Cheng Xizi Wang Jie Lei David J. Crandall Joey Tianyi Zhou Gedas Bertasius VLM 125 81 0 09 Dec 2022
Modularity through Attention: Efficient Training and Transfer of Language-Conditioned Policies for Robot Manipulation Yifan Zhou Shubham D. Sonawani Mariano Phielipp Simon Stepputtis H. B. Amor LM&Ro 88 28 0 08 Dec 2022
Learning Video Representations from Large Language Models Yue Zhao Ishan Misra Philipp Krahenbuhl Rohit Girdhar VLM AI4TS 126 178 0 08 Dec 2022
BEVBert: Multimodal Map Pre-training for Language-guided Navigation Dongyan An Yuankai Qi Yangguang Li Yan Huang Liangsheng Wang Tieniu Tan Jing Shao 99 64 0 08 Dec 2022
Vision and Structured-Language Pretraining for Cross-Modal Food Retrieval Mustafa Shukor Nicolas Thome Matthieu Cord CLIP CoGe 97 9 0 08 Dec 2022
DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset Young-Jun Lee ByungSoo Ko Han-Gyu Kim Jonghwan Hyeon Ho-Jin Choi 91 8 0 08 Dec 2022
LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models Chan Hee Song Jiaman Wu Clay Washington Brian M Sadler Wei-Lun Chao Yu-Chuan Su LLMAG LM&Ro 217 425 0 08 Dec 2022
Talking About Large Language Models Murray Shanahan AI4CE 144 275 0 07 Dec 2022
Fine-tuned CLIP Models are Efficient Video Learners H. Rasheed Muhammad Uzair Khattak Muhammad Maaz Salman Khan Fahad Shahbaz Khan CLIP VLM 141 163 0 06 Dec 2022
Transformers for End-to-End InfoSec Tasks: A Feasibility Study Ethan M. Rudd Mohammad Saidur Rahman Philip Tully 85 5 0 05 Dec 2022
Images Speak in Images: A Generalist Painter for In-Context Visual Learning Xinlong Wang Wen Wang Yue Cao Chunhua Shen Tiejun Huang VLM MLLM 169 262 0 05 Dec 2022
CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation Zicheng Zhang Yi Zhu Jian-zhuo Liu Xiaodan Liang Wei Ke 141 29 0 04 Dec 2022
Compound Tokens: Channel Fusion for Vision-Language Representation Learning Maxwell Mbabilla Aladago A. Piergiovanni 75 2 0 02 Dec 2022
UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding Dave Zhenyu Chen Ronghang Hu Xinlei Chen Matthias Nießner Angel X. Chang 120 54 0 01 Dec 2022
What do you MEME? Generating Explanations for Visual Semantic Role Labelling in Memes Shivam Sharma Siddhant Agarwal Tharun Suresh Preslav Nakov Md. Shad Akhtar Tanmoy Charkraborty VLM 111 22 0 01 Dec 2022
Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis Odysseas S. Chlapanis Georgios Paraskevopoulos Alexandros Potamianos 87 9 0 01 Dec 2022
Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning Zhuowan Li Xingrui Wang Elias Stengel-Eskin Adam Kortylewski Wufei Ma Benjamin Van Durme Max Planck Institute for Informatics OOD LRM 112 70 0 01 Dec 2022
Layout-aware Dreamer for Embodied Referring Expression Grounding Mingxiao Li Zehao Wang Tinne Tuytelaars Marie-Francine Moens LM&Ro 53 6 0 30 Nov 2022
Scalable Pathogen Detection from Next Generation DNA Sequencing with Deep Learning S. Narayanan Sathyanarayanan N. Aakur Priyadharsini Ramamurthy A. Bagavathi V. Ramnath A. Ramachandran 114 0 0 30 Nov 2022
Improving Commonsense in Vision-Language Models via Knowledge Graph Riddles Shuquan Ye Yujia Xie Dongdong Chen Yichong Xu Lu Yuan Chenguang Zhu Jing Liao VLM 68 12 0 29 Nov 2022
Abstract Visual Reasoning with Tangram Shapes Anya Ji Noriyuki Kojima N. Rush Alane Suhr Wai Keen Vong Robert D. Hawkins Yoav Artzi LRM 77 40 0 29 Nov 2022
MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition Xiaohuan Zhou Jiaming Wang Zeyu Cui Shiliang Zhang Zhijie Yan Jingren Zhou Chang Zhou 103 12 0 29 Nov 2022
Survey on Self-Supervised Multimodal Representation Learning and Foundation Models Sushil Thapa AI4TS SSL 50 1 0 29 Nov 2022
DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding Siyi Liu Yaoyuan Liang Feng Li Shijia Huang Hao Zhang Hang Su Jun Zhu Lei Zhang ObjD 108 28 0 28 Nov 2022
A Light Touch Approach to Teaching Transformers Multi-view Geometry Yash Bhalgat Joao F. Henriques Andrew Zisserman ViT 104 6 0 28 Nov 2022