VisualBERT: A Simple and Performant Baseline for Vision and Language

9 August 2019

Papers citing "VisualBERT: A Simple and Performant Baseline for Vision and Language"

50 / 1,200 papers shown

Title
RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding Linrui Xu Ling Zhao Wang Guo Qiujun Li Kewang Long Kaiqi Zou Yuhan Wang Haifeng Li AI4TS 77 7 0 18 Jun 2024
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences Yujie Lu Dongfu Jiang Wenhu Chen William Yang Wang Yejin Choi Bill Yuchen Lin VLM 110 33 0 16 Jun 2024
Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection Shruti Palaskar Oggi Rudovic Sameer Dharur Florian Pesce G. Krishna Aswin Sivaraman Jack Berkowitz Ahmed Hussen Abdelaziz Saurabh N. Adya Ahmed H. Tewfik VLM 88 0 0 13 Jun 2024
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models Samar Fares Klea Ziu Toluwani Aremu Nikita Durasov Martin Takáč Pascal Fua Karthik Nandakumar Ivan Laptev VLM AAML 99 5 0 13 Jun 2024
ConceptHash: Interpretable Fine-Grained Hashing via Concept Discovery Kam Woh Ng Xiatian Zhu Yi-Zhe Song Tao Xiang 84 2 0 12 Jun 2024
Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning Chenyu Yang Xizhou Zhu Jinguo Zhu Weijie Su Junjie Wang ... Lewei Lu Bin Li Jie Zhou Yu Qiao Jifeng Dai VLM CLIP 87 6 0 11 Jun 2024
Learning Domain-Invariant Features for Out-of-Context News Detection Yimeng Gu Mengqi Zhang Ignacio Castro Shu Wu Gareth Tyson 98 2 0 11 Jun 2024
Aligning Human Knowledge with Visual Concepts Towards Explainable Medical Image Classification Yunhe Gao Difei Gu Mu Zhou Dimitris N. Metaxas 93 6 0 08 Jun 2024
One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models Hao Fang Jiawei Kong Wenbo Yu Bin Chen Jiawei Li Hao Wu Ke Xu Ke Xu AAML VLM 133 14 0 08 Jun 2024
Interpretable Multimodal Out-of-context Detection with Soft Logic Regularization Huanhuan Ma Jinghao Zhang Qiang Liu Shu Wu Liang Wang 76 2 0 07 Jun 2024
ArMeme: Propagandistic Content in Arabic Memes Firoj Alam A. Hasnat Fatema Ahmed Md. Arid Hasan Maram Hasanain 78 8 0 06 Jun 2024
Multimodal Reasoning with Multimodal Knowledge Graph Junlin Lee Yequan Wang Jing Li Min Zhang 98 23 0 04 Jun 2024
Progressive Confident Masking Attention Network for Audio-Visual Segmentation Yuxuan Wang Feng Dong Jinchao Zhu Shuyue Zhu VOS 161 0 0 04 Jun 2024
Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models Yi Yang Qingwen Zhang Kei Ikemura Nazre Batool John Folkesson VLM 72 2 0 31 May 2024
Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models Himangi Mittal Nakul Agarwal Shao-Yuan Lo Kwonjoon Lee 113 18 0 30 May 2024
Enhancing Large Vision Language Models with Self-Training on Image Comprehension Yihe Deng Pan Lu Fan Yin Ziniu Hu Sheng Shen James Zou Kai-Wei Chang Wei Wang SyDa VLM LRM 100 46 0 30 May 2024
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification Laura Fieback Jakob Spiegelberg Hanno Gottschalk MLLM 232 5 0 29 May 2024
FinEmbedDiff: A Cost-Effective Approach of Classifying Financial Documents with Vector Sampling using Multi-modal Embedding Models Anjanava Biswas Wrick Talukdar 28 1 0 28 May 2024
Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View Jin Wang Shichao Dong Yapeng Zhu Kelu Yao Weidong Zhao Chao Li Ping Luo CoGe LRM 83 2 0 27 May 2024
Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning Neha Kalibhat Priyatham Kattakinda Arman Zarei Nikita Seleznev Sam Sharpe Samuel Sharpe Senthil Kumar Soheil Feizi ViT 73 0 0 26 May 2024
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement Xiyao Wang Jiuhai Chen Zhaoyang Wang Yuhang Zhou Yiyang Zhou ... Dinesh Manocha Tom Goldstein Parminder Bhatia Furong Huang Cao Xiao 203 38 0 24 May 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 333 54 0 23 May 2024
PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery Runlong He Mengya Xu Adrito Das Danyal Z. Khan Sophia Bano Hani J. Marcus Danail Stoyanov Matthew J. Clarkson Mobarakol Islam 79 9 0 22 May 2024
A Novel Fusion Architecture for PD Detection Using Semi-Supervised Speech Embeddings Tariq Adnan Abdelrahman Abdelkader Zipei Liu Ekram Hossain Sooyong Park Md. Saiful Islam Ehsan Hoque 56 2 0 21 May 2024
Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference Yuqi Liu Mengyu Li Di Liang Ximing Li Fausto Giunchiglia Lan Huang Xiaoyue Feng Renchu Guan 62 3 0 21 May 2024
Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models Canshi Wei VLM 67 0 0 18 May 2024
MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing Siddhant Agarwal Shivam Sharma Preslav Nakov Tanmoy Chakraborty 94 4 0 18 May 2024
Review of Deep Representation Learning Techniques for Brain-Computer Interfaces and Recommendations Pierre Guetschel Sara Ahmadi Michael Tangermann 105 0 0 17 May 2024
STAR: A Benchmark for Situated Reasoning in Real-World Videos Bo Wu Shoubin Yu Zhenfang Chen Joshua B. Tenenbaum Chuang Gan 157 196 0 15 May 2024
Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis A. Englebert Anne-Sophie Collin O. Cornu Christophe De Vleeschouwer 74 1 0 14 May 2024
Unified Video-Language Pre-training with Synchronized Audio Shentong Mo Haofan Wang Huaxia Li Xu Tang 77 2 0 12 May 2024
Realizing Visual Question Answering for Education: GPT-4V as a Multimodal AI Gyeong-Geon Lee Xiaoming Zhai 53 9 0 12 May 2024
Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media Zhizhen Zhang Ning Wang Haojie Li Zhihui Wang 66 0 0 09 May 2024
POV Learning: Individual Alignment of Multimodal Models using Human Perception Simon Werner Katharina Christ Laura Bernardy Marion G. Müller Achim Rettinger 33 0 0 07 May 2024
ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images Huy Quang Pham Thang Kien-Bao Nguyen Quan Van Nguyen Dan Quang Tran Nghia Hieu Nguyen Kiet Van Nguyen Ngan Luu-Thuy Nguyen 97 4 0 29 Apr 2024
Medical Vision-Language Pre-Training for Brain Abnormalities Masoud Monajatipoor Zi-Yi Dou Aichi Chien Nanyun Peng Kai-Wei Chang VLM 103 0 0 27 Apr 2024
NTIRE 2024 Quality Assessment of AI-Generated Content Challenge Xiaohong Liu Xiongkuo Min Guangtao Zhai Chunyi Li Tengchuan Kou ... Qi Yan Youran Qu Xiaohui Zeng Lele Wang Renjie Liao 108 31 0 25 Apr 2024
What Makes Multimodal In-Context Learning Work? Folco Bertini Baldassini Mustafa Shukor Matthieu Cord Laure Soulier Benjamin Piwowarski 138 23 0 24 Apr 2024
Leveraging Speech for Gesture Detection in Multimodal Communication E. Ghaleb I. Burenko Marlou Rasenberg Wim Pouw Ivan Toni Peter Uhrig Anna Wilson Judith Holler Asli Ozyurek Raquel Fernández SLR 49 4 0 23 Apr 2024
PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering Yihao Ding Kaixuan Ren Jiabin Huang Siwen Luo S. Han 86 1 0 19 Apr 2024
Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models Shouwei Ruan Yinpeng Dong Hanqing Liu Yao Huang Hang Su Xingxing Wei VLM 103 1 0 18 Apr 2024
Variational Multi-Modal Hypergraph Attention Network for Multi-Modal Relation Extraction Qian Li Cheng Ji Shu Guo Yong Zhao Qianren Mao Shangguang Wang Yuntao Wei Jianxin Li 54 1 0 18 Apr 2024
Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering Jie Ma Min Hu Pinghui Wang Wangchun Sun Lingyun Song Hongbin Pei Jun Liu Youtian Du 161 7 0 18 Apr 2024
Towards a Foundation Model for Partial Differential Equations: Multi-Operator Learning and Extrapolation Jingmin Sun Yuxuan Liu Zecheng Zhang Hayden Schaeffer AI4CE 156 20 0 18 Apr 2024
Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent Wei Chen Zhiyuan Li LLMAG 44 5 0 17 Apr 2024
From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search Jintao Sun Zhedong Zheng Gangyi Ding Gangyi Ding 124 8 0 16 Apr 2024
Evolving Interpretable Visual Classifiers with Large Language Models Mia Chiquier Utkarsh Mall Carl Vondrick VLM 99 11 0 15 Apr 2024
Conditional Prototype Rectification Prompt Learning Haoxing Chen Yaohui Li Zizheng Huang Yan Hong Zhuoer Xu Zhangxuan Gu Jun Lan Huijia Zhu Weiqiang Wang VLM 94 3 0 15 Apr 2024
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu VLM ObjD 96 26 0 14 Apr 2024
AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation Jiannan Ge Lingxi Xie Hongtao Xie Pandeng Li Xiaopeng Zhang Yongdong Zhang Qi Tian VLM 99 3 0 08 Apr 2024