ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,119 papers shown

Title
MGDoc: Pre-training with Multi-granular Hierarchy for Document Image Understanding Zilong Wang Jiuxiang Gu Chris Tensmeyer Nikolaos Barmpalios A. Nenkova Tong Sun Jingbo Shang Vlad I. Morariu VLM 74 12 0 27 Nov 2022
Deep representation learning: Fundamentals, Perspectives, Applications, and Open Challenges K. T. Baghaei Amirreza Payandeh Pooya Fayyazsanavi Shahram Rahimi Zhiqian Chen Somayeh Bakhtiari Ramezani FaML AI4TS 71 6 0 27 Nov 2022
Target-Free Text-guided Image Manipulation Wanshu Fan Cheng Yang Chiao-An Yang Yu-Chiang Frank Wang DiffM 67 2 0 26 Nov 2022
Language-Assisted 3D Feature Learning for Semantic Scene Understanding Junbo Zhang Guo Fan Guanghan Wang Zhèngyuān Sū Kaisheng Ma L. Yi 3DPC 80 7 0 25 Nov 2022
TPA-Net: Generate A Dataset for Text to Physics-based Animation Yuxing Qiu Feng Gao Minchen Li Govind Thattai Yin Yang Chenfanfu Jiang PINN DiffM VGen 62 0 0 25 Nov 2022
Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning Yatai Ji Rong-Cheng Tu Jie Jiang Weijie Kong Chengfei Cai Wenzhe Zhao Hongfa Wang Yujiu Yang Wei Liu VLM 85 15 0 24 Nov 2022
Unified Multimodal Model with Unlikelihood Training for Visual Dialog Zihao Wang Junli Wang Changjun Jiang MLLM 67 10 0 23 Nov 2022
X $^2$ -VLM: All-In-One Pre-trained Model For Vision-Language Tasks Yan Zeng Xinsong Zhang Hang Li Jiawei Wang Jipeng Zhang Hkust Wangchunshu Zhou VLM MLLM 72 15 0 22 Nov 2022
Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention Zineng Tang Jaemin Cho Jie Lei Joey Tianyi Zhou VLM 84 9 0 21 Nov 2022
Exploring Discrete Diffusion Models for Image Captioning Zixin Zhu Yixuan Wei Jianfeng Wang Zhe Gan Zheng Zhang Le Wang G. Hua Lijuan Wang Zicheng Liu Han Hu DiffM VLM 105 24 0 21 Nov 2022
ClipCrop: Conditioned Cropping Driven by Vision-Language Model Zhihang Zhong Mingxi Cheng Zhirong Wu Yuhui Yuan Yinqiang Zheng Ji Li Han Hu Stephen Lin Yoichi Sato Imari Sato VLM CLIP 70 4 0 21 Nov 2022
Cross-Modal Contrastive Learning for Robust Reasoning in VQA Qinjie Zheng Chaoyue Wang Daqing Liu Dadong Wang Dacheng Tao LRM 66 0 0 21 Nov 2022
Language in a Bottle: Language Model Guided Concept Bottlenecks for Interpretable Image Classification Yue Yang Artemis Panagopoulou Shenghao Zhou Daniel Jin Chris Callison-Burch Mark Yatskar 150 235 0 21 Nov 2022
You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model Sheng Tang Yaqing Wang Zhenglun Kong Tianchi Zhang Yao Li Caiwen Ding Yanzhi Wang Yi Liang Dongkuan Xu 93 34 0 21 Nov 2022
Diffusion-Based Scene Graph to Image Generation with Masked Contrastive Pre-Training Ling Yang Zhilin Huang Yang Song Shenda Hong Ge Li Wentao Zhang Tengjiao Wang Guohao Li Ming-Hsuan Yang 104 57 0 21 Nov 2022
Leveraging per Image-Token Consistency for Vision-Language Pre-training Yunhao Gou Tom Ko Hansi Yang James T. Kwok Yu Zhang Mingxuan Wang VLM 78 11 0 20 Nov 2022
A survey on knowledge-enhanced multimodal learning Maria Lymperaiou Giorgos Stamou 174 15 0 19 Nov 2022
A Unified Model for Video Understanding and Knowledge Embedding with Heterogeneous Knowledge Graph Dataset Jiaxin Deng Dong Shen Haojie Pan Xiangyu Wu Ximan Liu Gaofeng Meng Fan Yang Size Li Ruiji Fu Zhongyuan Wang 60 1 0 19 Nov 2022
CL-CrossVQA: A Continual Learning Benchmark for Cross-Domain Visual Question Answering Yao Zhang Haokun Chen A. Frikha Yezi Yang Denis Krompass Gengyuan Zhang Jindong Gu Volker Tresp VLM LRM 88 7 0 19 Nov 2022
Detect Only What You Specify : Object Detection with Linguistic Target Moyuru Yamada ObjD VLM 35 0 0 18 Nov 2022
Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information Weijie Su Xizhou Zhu Chenxin Tao Lewei Lu Bin Li Gao Huang Yu Qiao Xiaogang Wang Jie Zhou Jifeng Dai 97 42 0 17 Nov 2022
CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal Pre-trained Knowledge Linli Yao Wei Chen Qin Jin VLM 123 11 0 17 Nov 2022
Text-Aware Dual Routing Network for Visual Question Answering Luoqian Jiang Yifan He Jian Chen 38 0 0 17 Nov 2022
PromptCap: Prompt-Guided Task-Aware Image Captioning Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A. Smith Jiebo Luo 127 106 0 15 Nov 2022
Pragmatics in Language Grounding: Phenomena, Tasks, and Modeling Approaches Daniel Fried Nicholas Tomlin Jennifer Hu Roma Patel Aida Nematzadeh 95 7 0 15 Nov 2022
Self-supervised remote sensing feature learning: Learning Paradigms, Challenges, and Future Works Chao Tao Ji Qi Mingning Guo Qing Zhu Haifeng Li SSL 104 59 0 15 Nov 2022
YORO -- Lightweight End to End Visual Grounding Chih-Hui Ho Srikar Appalaraju Bhavan A. Jasani R. Manmatha Nuno Vasconcelos ObjD 60 22 0 15 Nov 2022
MF2-MVQA: A Multi-stage Feature Fusion method for Medical Visual Question Answering Shanshan Song Jiangyun Li Junchang Wang Yuan Cai Wenkai Dong 19 0 0 11 Nov 2022
Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions Michele Cafagna Kees van Deemter Albert Gatt CoGe 66 4 0 09 Nov 2022
ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for Understanding and Generation Bin Shan Yaqian Han Weichong Yin Shuohuan Wang Yu Sun Hao Tian Hua Wu Haifeng Wang MLLM VLM 88 8 0 09 Nov 2022
Pretraining in Deep Reinforcement Learning: A Survey Zhihui Xie Zichuan Lin Junyou Li Shuai Li Deheng Ye OffRL OnRL AI4CE 87 23 0 08 Nov 2022
CLOP: Video-and-Language Pre-Training with Knowledge Regularizations Guohao Li Hu Yang Feng He Zhifan Feng Yajuan Lyu Hua Wu Haifeng Wang VLM 50 2 0 07 Nov 2022
Logographic Information Aids Learning Better Representations for Natural Language Inference Zijian Jin Duygu Ataman 63 1 0 03 Nov 2022
Grounding Scene Graphs on Natural Images via Visio-Lingual Message Passing Aditay Tripathi Anand Mishra Anirban Chakraborty 58 2 0 03 Nov 2022
Text-Only Training for Image Captioning using Noise-Injected CLIP David Nukrai Ron Mokady Amir Globerson VLM CLIP 148 98 0 01 Nov 2022
Training Vision-Language Models with Less Bimodal Supervision Elad Segal Ben Bogin Jonathan Berant VLM 53 2 0 01 Nov 2022
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings Ethan Chern Kuo-Hsuan Hung Yi-Ting Chen Tassadaq Hussain M. Gogate Amir Hussain Yu Tsao Jen-Cheng Hou SSL 96 15 0 31 Oct 2022
Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities Khyathi Chandu A. Geramifard 76 3 0 30 Oct 2022
Towards Versatile Embodied Navigation Hongru Wang Wei Liang Luc Van Gool Wenguan Wang LM&Ro 102 25 0 30 Oct 2022
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention Fenglin Liu Xian Wu Shen Ge Xuancheng Ren Wei Fan Xu Sun Yuexian Zou VLM 108 13 0 28 Oct 2022
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation Henghui Ding Chang Liu Suchen Wang Xudong Jiang 146 124 0 28 Oct 2022
Learning Joint Representation of Human Motion and Language Jihoon Kim Youngjae Yu Seungyoung Shin Taehyun Byun Sungjoon Choi 77 5 0 27 Oct 2022
Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models Chaofan Ma Yu-Hao Yang Yanfeng Wang Ya Zhang Weidi Xie VLM 86 48 0 27 Oct 2022
Masked Vision-Language Transformer in Fashion Ge-Peng Ji Mingchen Zhuge D. Gao Deng-Ping Fan Daniel Gehrig Luc Van Gool 90 25 0 27 Oct 2022
Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems Wang Zhu Jesse Thomason Robin Jia VLM OOD NAI LRM 58 6 0 26 Oct 2022
FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning Suvir Mirchandani Licheng Yu Mengjiao MJ Wang Animesh Sinha Wen-Jun Jiang Tao Xiang Ning Zhang 83 16 0 26 Oct 2022
End-to-End Multimodal Representation Learning for Video Dialog Huda AlAmri Anthony Bilic Michael Hu Apoorva Beedu Irfan Essa 90 7 0 26 Oct 2022
From colouring-in to pointillism: revisiting semantic segmentation supervision Rodrigo Benenson V. Ferrari VLM 74 21 0 25 Oct 2022
Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision Tong Wang Jorma T. Laaksonen T. Langer Heikki Arponen Tom E. Bishop VLM 69 6 0 24 Oct 2022
Instruction-Following Agents with Multimodal Transformer Hao Liu Lisa Lee Kimin Lee Pieter Abbeel LM&Ro 135 11 0 24 Oct 2022