ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,119 papers shown

Title
FlexiAST: Flexibility is What AST Needs Jiu Feng Mehmet Hamza Erol Joon Son Chung Arda Senocak 57 3 0 18 Jul 2023
A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future Chaoyang Zhu Long Chen ObjD VLM 148 40 0 18 Jul 2023
DARTS: Double Attention Reference-based Transformer for Super-resolution Masoomeh Aslahishahri Jordan R. Ubbens Ian Stavness 62 3 0 17 Jul 2023
BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization Chaoya Jiang Haiyang Xu Wei Ye Qinghao Ye Chenliang Li Mingshi Yan Bin Bi Shikun Zhang Fei Huang Songfang Huang VLM 66 9 0 17 Jul 2023
PAT: Parallel Attention Transformer for Visual Question Answering in Vietnamese Nghia Hieu Nguyen Kiet Van Nguyen 47 2 0 17 Jul 2023
Breaking Down the Task: A Unit-Grained Hybrid Training Framework for Vision and Language Decision Making Ruipu Luo Jiwen Zhang Zhongyu Wei VLM 43 0 0 16 Jul 2023
Improving Zero-Shot Generalization for CLIP with Synthesized Prompts Ziyi Wang Jian Liang Ran He Nana Xu Zilei Wang Tien-Ping Tan VLM 102 53 0 14 Jul 2023
Bootstrapping Vision-Language Learning with Decoupled Language Pre-training Yiren Jian Chongyang Gao Soroush Vosoughi VLM MLLM 110 31 0 13 Jul 2023
mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs Gregor Geigle Abhay Jain Radu Timofte Goran Glavaš VLM MLLM 123 32 0 13 Jul 2023
Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times and Location Reasoning Gengyuan Zhang Yurui Zhang Kerui Zhang Volker Tresp LRM 77 13 0 12 Jul 2023
GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation Junghyun Kim Gi-Cheon Kang Jaein Kim Suyeon Shin Byoung-Tak Zhang LM&Ro 82 7 0 12 Jul 2023
Prototypical Contrastive Transfer Learning for Multimodal Language Understanding Seitaro Otsuki Shintaro Ishikawa K. Sugiura 89 1 0 12 Jul 2023
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone Shraman Pramanick Yale Song Sayan Nag Kevin Qinghong Lin Hardik Shah Mike Zheng Shou Ramalingam Chellappa Pengchuan Zhang VLM 127 100 0 11 Jul 2023
One-Versus-Others Attention: Scalable Multimodal Integration for Clinical Data Michal Golovanevsky Eva Schiller Akira Nair Ritambhara Singh Carsten Eickhoff 76 3 0 11 Jul 2023
Separate-and-Aggregate: A Transformer-based Patch Refinement Model for Knowledge Graph Completion Chen Chen Yufei Wang Yang Zhang Quan.Z Sheng Kwok-Yan Lam KELM 137 3 0 11 Jul 2023
KU-DMIS-MSRA at RadSum23: Pre-trained Vision-Language Model for Radiology Report Summarization Gangwoo Kim Hajung Kim Lei Ji Seongsu Bae Chanhwi Kim Mujeen Sung Hyunjae Kim Kun Yan E. Chang Jaewoo Kang VLM 50 2 0 10 Jul 2023
All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment Chunhui Zhang Xin Sun Li Liu Yiqian Yang Qiong Liu Xiaoping Zhou Yanfeng Wang 218 17 0 07 Jul 2023
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo MLLM VLM 173 238 0 07 Jul 2023
Vision Language Transformers: A Survey Clayton Fields C. Kennington VLM 63 5 0 06 Jul 2023
Structure Guided Multi-modal Pre-trained Transformer for Knowledge Graph Reasoning K. Liang Sihang Zhou Yue Liu Lingyuan Meng Meng Liu Xinwang Liu 105 16 0 06 Jul 2023
Human Inspired Progressive Alignment and Comparative Learning for Grounded Word Acquisition Yuwei Bao B. Lattimer J. Chai CLL 84 1 0 05 Jul 2023
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding Rui Sun Zhecan Wang Haoxuan You Noel Codella Kai-Wei Chang Shih-Fu Chang CLIP 134 4 0 03 Jul 2023
ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models Uddeshya Upadhyay Shyamgopal Karthik Massimiliano Mancini Zeynep Akata MLLM VLM 92 4 0 01 Jul 2023
Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection Yifan Zhang Zhiyu Zhu Xianqiang Lyu Dapeng Wu 135 8 0 01 Jul 2023
S-Omninet: Structured Data Enhanced Universal Multimodal Learning Architecture Ye Xue Diego Klabjan J. Utke 37 0 0 01 Jul 2023
MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling Zhenyu Zhang Wenhao Chai Zhongyu Jiang Tianbo Ye Xiuming Zhang Lei Li Gaoang Wang 3DH 66 5 0 29 Jun 2023
Reconstructing the Hemodynamic Response Function via a Bimodal Transformer Yoni Choukroun Lior Golgher P. Blinder L. Wolf MedIm 26 0 0 28 Jun 2023
Towards Open Vocabulary Learning: A Survey Jianzong Wu Xiangtai Li Shilin Xu Haobo Yuan Henghui Ding ... Jiangning Zhang Yu Tong Xudong Jiang Guohao Li Dacheng Tao ObjD VLM 156 151 0 28 Jun 2023
Approximated Prompt Tuning for Vision-Language Pre-trained Models Qiong Wu Shubin Huang Yiyi Zhou Pingyang Dai Annan Shu Guannan Jiang Rongrong Ji VLM VPVLM 42 2 0 27 Jun 2023
PTVD: A Large-Scale Plot-Oriented Multimodal Dataset Based on Television Dramas Chen Li Xutan Peng Teng Wang Yixiao Ge Mengyang Liu Xuyuan Xu Yexin Wang Ying Shan VGen 76 2 0 26 Jun 2023
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input Qingpei Guo Kaisheng Yao Wei Chu MLLM 45 5 0 25 Jun 2023
Exploring the Role of Audio in Video Captioning Yuhan Shen Linjie Yang Longyin Wen Haichao Yu Ehsan Elhamifar Heng Wang 70 2 0 21 Jun 2023
RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large Vision-Language Model for Remote Sensing Zilun Zhang Tiancheng Zhao Yulong Guo Yuxiang Cai DiffM VLM 174 66 0 20 Jun 2023
A neuro-symbolic approach for multimodal reference expression comprehension Aman Jain Anirudh Reddy Kondapally Kentaro Yamada Hitomi Yanaka 46 2 0 19 Jun 2023
Generation of Radiology Findings in Chest X-Ray by Leveraging Collaborative Knowledge Manuela Danu George Marica Sanjeev Kumar Karn Bogdan Georgescu Awais Mansoor ... Lucian Mihai Itu C. Suciu Sasa Grbic Oladimeji Farri Dorin Comaniciu MedIm 66 8 0 18 Jun 2023
Listener Model for the PhotoBook Referential Game with CLIPScores as Implicit Reference Chain Shih-Lun Wu Yi-Hui Chou Liang Li 63 0 0 16 Jun 2023
Exploring the Application of Large-scale Pre-trained Models on Adverse Weather Removal Zhentao Tan Yue-bo Wu Qiankun Liu Qi Chu Le Lu Jieping Ye Nenghai Yu 95 13 0 15 Jun 2023
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training Chong Liu Yuqi Zhang Hongsong Wang Weihua Chen F. Wang Yan Huang Yixing Shen Liang Wang 73 29 0 15 Jun 2023
Improving Selective Visual Question Answering by Learning from Your Peers Corentin Dancette Spencer Whitehead Rishabh Maheshwary Ramakrishna Vedantam Stefan Scherer Xinlei Chen Matthieu Cord Marcus Rohrbach AAML OOD 89 17 0 14 Jun 2023
AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn Difei Gao Lei Ji Luowei Zhou Kevin Lin Joya Chen Zihan Fan Mike Zheng Shou MLLM 106 76 0 14 Jun 2023
Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images Ming Y. Lu Bowen Chen Andrew Zhang Drew F. K. Williamson Richard J. Chen Tong Ding L. Le Yung-Sung Chuang Faisal Mahmood VLM MedIm 223 102 0 13 Jun 2023
I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models Raz Lapid Moshe Sipper AAML 121 17 0 13 Jun 2023
Controlling Text-to-Image Diffusion by Orthogonal Finetuning Zeju Qiu Wei-yu Liu Haiwen Feng Yuxuan Xue Yao Feng Zhen Liu Dan Zhang Adrian Weller Bernhard Schölkopf DiffM 137 158 0 12 Jun 2023
Global and Local Semantic Completion Learning for Vision-Language Pre-training Rong-Cheng Tu Yatai Ji Jie Jiang Weijie Kong Chengfei Cai Wenzhe Zhao Hongfa Wang Yujiu Yang Wei Liu VLM 100 4 0 12 Jun 2023
A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks Saidul Islam Hanae Elmekki Ahmed Elsebai Jamal Bentahar Najat Drawel Gaith Rjoub Witold Pedrycz ViT MedIm 94 212 0 11 Jun 2023
Weakly Supervised Visual Question Answer Generation Charani Alampalle Shamanthak Hegde Soumya Jahagirdar Shankar Gangisetty 78 0 0 11 Jun 2023
Multi-modal Pre-training for Medical Vision-language Understanding and Generation: An Empirical Study with A New Benchmark Li Xu Bo Liu Ameer Hamza Khan Lu Fan Xiao-Ming Wu LM&MA 67 9 0 10 Jun 2023
DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents Fuxiao Liu Hao Tan Chris Tensmeyer CLIP VLM 103 18 0 09 Jun 2023
Read, look and detect: Bounding box annotation from image-caption pairs E. Sanchez ObjD 64 0 0 09 Jun 2023
Embodied Executable Policy Learning with Language-based Scene Summarization Jielin Qiu Mengdi Xu William Jongwon Han Seungwhan Moon Ding Zhao LM&Ro 86 8 0 09 Jun 2023