ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,118 papers shown

Title
Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations Jaisidh Singh Ishaan Shrivastava Mayank Vatsa Richa Singh Aparna Bharati VLM CoGe 89 20 0 29 Mar 2024
FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues Shuang Li Jiahua Wang Lijie Wen LRM 55 0 0 29 Mar 2024
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want Weifeng Lin Xinyu Wei Ruichuan An Peng Gao Bocheng Zou Yulin Luo Siyuan Huang Shanghang Zhang Hongsheng Li VLM 193 47 0 29 Mar 2024
Text Data-Centric Image Captioning with Interactive Prompts Yiyu Wang Hao Luo Jungang Xu Yingfei Sun Fan Wang VLM 80 0 0 28 Mar 2024
Generative Multi-modal Models are Good Class-Incremental Learners Xusheng Cao Haori Lu Linlan Huang Xialei Liu Ming-Ming Cheng CLL 95 15 0 27 Mar 2024
m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt Jian Yang Hongcheng Guo Yuwei Yin Jiaqi Bai Bing Wang Jiaheng Liu Xinnian Liang Linzheng Cahi Liqun Yang Zhoujun Li 71 10 0 26 Mar 2024
UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction Xixuan Hao Wei Chen Yibo Yan Siru Zhong Kun Wang Qingsong Wen Yuxuan Liang VLM 118 1 0 25 Mar 2024
Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation Bowen Huang Yanwei Zheng Chuanlin Lan Xinpeng Zhao Yifei Zou Dongxiao Yu 104 0 0 23 Mar 2024
Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models Qiong Wu Weihao Ye Yiyi Zhou Xiaoshuai Sun Rongrong Ji MoE 86 1 0 22 Mar 2024
As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks? Anjun Hu Jindong Gu Francesco Pinto Konstantinos Kamnitsas Philip Torr AAML SILM 86 5 0 19 Mar 2024
CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation Wenqi Zhu Jiale Cao Jin Xie Shuangming Yang Yanwei Pang VLM CLIP 115 3 0 19 Mar 2024
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning Chong Ma Hanqi Jiang Wenting Chen Yiwei Li Zihao Wu ... Dajiang Zhu Tuo Zhang Dinggang Shen Tianming Liu Xiang Li 39 1 0 19 Mar 2024
Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation Ming Xu Zilong Xie 100 2 0 18 Mar 2024
Semantic-Enhanced Representation Learning for Road Networks with Temporal Dynamics Yile Chen Xiucheng Li Gao Cong Zhifeng Bao Cheng Long 47 2 0 18 Mar 2024
Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis Vishnu Sashank Dorbala Sanjoy Chowdhury Dinesh Manocha LM&Ro 118 2 0 18 Mar 2024
Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding Zichen Wu Hsiu-Yuan Huang Fanyi Qu Hao Sun VLM MoE 83 5 0 17 Mar 2024
Deciphering Hate: Identifying Hateful Memes and Their Targets E. Hossain Omar Sharif M. M. Hoque S. Preum 85 6 0 16 Mar 2024
Joint Multimodal Transformer for Emotion Recognition in the Wild Paul Waligora Haseeb Aslam Osama Zeeshan Soufiane Belharbi A. L. Koerich M. Pedersoli Simon L Bacon Eric Granger 105 11 0 15 Mar 2024
Knowledge Condensation and Reasoning for Knowledge-based VQA Dongze Hao Jian Jia Longteng Guo Qunbo Wang Te Yang ... Yanhua Cheng Bo Wang Quan Chen Han Li Jing Liu 82 1 0 15 Mar 2024
GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery Enguang Wang Zhimao Peng Zhengyuan Xie Fei Yang Xialei Liu Ming-Ming Cheng 135 3 0 15 Mar 2024
PosSAM: Panoptic Open-vocabulary Segment Anything VS Vibashan Shubhankar Borse Hyojin Park Debasmit Das Vishal M. Patel Munawar Hayat Fatih Porikli VLM MLLM 78 7 0 14 Mar 2024
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training Brandon McKinzie Zhe Gan J. Fauconnier Sam Dodge Bowen Zhang ... Zirui Wang Ruoming Pang Peter Grasch Alexander Toshev Yinfei Yang MLLM 138 209 0 14 Mar 2024
Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification Long Lan Fengxiang Wang Shuyan Li Xiangtao Zheng Zengmao Wang Xinwang Liu VLM 86 9 0 13 Mar 2024
VideoMamba: State Space Model for Efficient Video Understanding Kunchang Li Xinhao Li Yi Wang Yinan He Yali Wang Limin Wang Yu Qiao Mamba 69 214 0 11 Mar 2024
Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment Minghua Zhang Ke Chang Hao Sun 78 3 0 11 Mar 2024
Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning Bingqian Lin Yanxin Long Yi Zhu Fengda Zhu Xiaodan Liang QiXiang Ye Liang Lin 88 5 0 09 Mar 2024
Effectiveness Assessment of Recent Large Vision-Language Models Yao Jiang Xinyu Yan Ge-Peng Ji Keren Fu Meijun Sun Huan Xiong Deng-Ping Fan Fahad Shahbaz Khan 140 17 0 07 Mar 2024
Transformers and Language Models in Form Understanding: A Comprehensive Review of Scanned Document Analysis Abdelrahman Abdallah Daniel Eberharter Zoe Pfister Adam Jatowt 66 13 0 06 Mar 2024
Temporal Cross-Attention for Dynamic Embedding and Tokenization of Multimodal Electronic Health Records Yingbo Ma Suraj Kolla Dhruv Kaliraman Victoria Nolan Zhenhong Hu ... T. Ozrazgat-Baslanti Tyler J. Loftus Parisa Rashidi A. Bihorac B. Shickel AI4TS 87 1 0 06 Mar 2024
FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation C. Rockwell Nilesh Kulkarni Linyi Jin Jeong Joon Park Justin Johnson David Fouhey 178 6 0 05 Mar 2024
The Case for Evaluating Multimodal Translation Models on Text Datasets Vipin Vijayan Braeden Bowen Scott Grigsby Timothy Anderson Jeremy Gwinnup 60 3 0 05 Mar 2024
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models Gen Luo Yiyi Zhou Yuxin Zhang Xiawu Zheng Xiaoshuai Sun Rongrong Ji VLM 81 66 0 05 Mar 2024
Enhancing Vision-Language Pre-training with Rich Supervisions Yuan Gao Kunyu Shi Pengkai Zhu Edouard Belval Oren Nuriel Srikar Appalaraju Shabnam Ghadar Vijay Mahadevan Zhuowen Tu Stefano Soatto VLM CLIP 168 12 0 05 Mar 2024
Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review Iryna Hartsock Ghulam Rasool 102 82 0 04 Mar 2024
Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection Jieren Deng Haojian Zhang Kun Ding Jianhua Hu Xingxuan Zhang Yunkuan Wang VLM ObjD 182 7 0 04 Mar 2024
Adversarial Testing for Visual Grounding via Image-Aware Property Reduction Zhiyuan Chang Mingyang Li Junjie Wang Cheng Li Boyu Wu Fanjiang Xu Qing Wang AAML 71 0 0 02 Mar 2024
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training Haowei Liu Yaya Shi Haiyang Xu Chunfen Yuan Qinghao Ye ... Mingshi Yan Ji Zhang Fei Huang Bing Li Weiming Hu VLM 96 0 0 01 Mar 2024
The All-Seeing Project V2: Towards General Relation Comprehension of the Open World Weiyun Wang Yiming Ren Hao Luo Tiantong Li Chenxiang Yan ... Qingyun Li Lewei Lu Xizhou Zhu Yu Qiao Jifeng Dai MLLM 143 53 0 29 Feb 2024
Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding Hongshen Xu Lu Chen Zihan Zhao Da Ma Ruisheng Cao Zichen Zhu Kai Yu 62 2 0 28 Feb 2024
Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction Koki Maeda Shuhei Kurita Taiki Miyanishi Naoaki Okazaki 59 2 0 28 Feb 2024
On the Challenges and Opportunities in Generative AI Laura Manduchi Kushagra Pandey Robert Bamler Ryan Cotterell Sina Daubener ... F. Wenzel Frank Wood Stephan Mandt Vincent Fortuin Vincent Fortuin 301 22 0 28 Feb 2024
Acquiring Linguistic Knowledge from Multimodal Input Theodor Amariucai Alexander Scott Warstadt CLL 97 2 0 27 Feb 2024
Vision Transformers with Natural Language Semantics Young-Kyung Kim Matías Di Martino Guillermo Sapiro ViT 63 5 0 27 Feb 2024
Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning Maurits J. R. Bleeker Mariya Hendriksen Andrew Yates Maarten de Rijke VLM 97 2 0 27 Feb 2024
ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks Yang Liu Xiaomin Yu Gongyu Zhang Christos Bergeles Prokar Dasgupta Alejandro Granados Sebastien Ourselin 73 2 0 27 Feb 2024
Measuring Vision-Language STEM Skills of Neural Models Jianhao Shen Ye Yuan Srbuhi Mirzoyan Ming Zhang Chenguang Wang VLM 131 12 0 27 Feb 2024
How Can LLM Guide RL? A Value-Based Approach Shenao Zhang Sirui Zheng Shuqi Ke Zhihan Liu Wanxin Jin Jianbo Yuan Yingxiang Yang Hongxia Yang Zhaoran Wang 78 9 0 25 Feb 2024
CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora Zijun Long Xuri Ge R. McCreadie Joemon M. Jose 84 7 0 23 Feb 2024
Multimodal Transformer With a Low-Computational-Cost Guarantee Sungjin Park Edward Choi 61 2 0 23 Feb 2024
Vision-Language Navigation with Embodied Intelligence: A Survey Peng Gao Peng Wang Feng Gao Fei Wang Ruyue Yuan LM&Ro 101 3 0 22 Feb 2024