VisualBERT: A Simple and Performant Baseline for Vision and Language

9 August 2019

Papers citing "VisualBERT: A Simple and Performant Baseline for Vision and Language"

50 / 1,200 papers shown

Title
Chameleon: Fast-slow Neuro-symbolic Lane Topology Extraction Zongzheng Zhang Xinrun Li Sizhe Zou Guoxuan Chi Siqi Li ... Guoliang Wang Guantian Zheng Leichen Wang Hang Zhao Hao Zhao 145 0 0 10 Mar 2025
Anatomy-Aware Conditional Image-Text Retrieval Meng Zheng Jiajin Zhang Benjamin Planche Zhongpai Gao Terrence Chen Ziyan Wu MedIm 87 0 0 10 Mar 2025
Enhancing Vietnamese VQA through Curriculum Learning on Raw and Augmented Text Representations Khoi Anh Nguyen Linh Yen Vu Thang Dinh Duong Thuan Nguyen Duong Huy Thanh Nguyen V. Q. Dinh 91 3 0 05 Mar 2025
Vision-Language Model IP Protection via Prompt-based Learning Lianyu Wang Ming Wang Huazhu Fu Daoqiang Zhang VLM Presented at ResearchTrend Connect \| VLM on 28 Mar 2025 184 0 0 04 Mar 2025
FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA S M Sarwar 130 1 0 25 Feb 2025
Vision Language Models in Medicine Beria Chingnabe Kalpelbe Angel Gabriel Adaambiik Wei Peng VLM LM&MA 121 2 0 24 Feb 2025
ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems Haibo Xing Kanefumi Matsuyama Hao Deng Jinxin Hu Yu Zhang Xiaoyi Zeng 77 0 0 22 Feb 2025
Multi-Turn Multi-Modal Question Clarification for Enhanced Conversational Understanding Kimia Ramezan Alireza Amiri Bavandpour Yifei Yuan Clemencia Siro Mohammad Aliannejadi 89 0 0 17 Feb 2025
Learning Generalizable Prompt for CLIP with Class Similarity Knowledge Sehun Jung Hyang-won Lee VLM VPVLM 73 0 0 17 Feb 2025
Demystifying Hateful Content: Leveraging Large Multimodal Models for Hateful Meme Detection with Explainable Decisions Ming Shan Hee Roy Ka-wei Lee VLM 114 1 0 16 Feb 2025
Vision-Language Models for Edge Networks: A Comprehensive Survey Ahmed Sharshar Latif U. Khan Waseem Ullah Mohsen Guizani VLM 160 3 0 11 Feb 2025
A Multimodal PDE Foundation Model for Prediction and Scientific Text Descriptions Elisa Negrini Yuxuan Liu Liu Yang Stanley Osher Hayden Schaeffer AI4CE 148 0 0 09 Feb 2025
Multi-Branch Collaborative Learning Network for Video Quality Assessment in Industrial Video Search Hengzhu Tang Zefeng Zhang Zhiping Li Zhenyu Zhang Xing Wu Li Gao Suqi Cheng Dawei Yin 111 1 0 09 Feb 2025
Mitigating GenAI-powered Evidence Pollution for Out-of-Context Multimodal Misinformation Detection Zehong Yan Peng Qi Wynne Hsu Mong Li Lee 89 0 0 24 Jan 2025
MASS: Overcoming Language Bias in Image-Text Matching Jiwan Chung Seungwon Lim Sangkyu Lee Youngjae Yu VLM 85 0 0 20 Jan 2025
Leveraging Taxonomy and LLMs for Improved Multimodal Hierarchical Classification Shijing Chen Mohamed Reda Bouadjenek Shoaib Jameel Usman Naseem Basem Suleiman Flora D. Salim Hakim Hacid Imran Razzak 68 1 0 12 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 171 15 0 06 Jan 2025
SAFE-MEME: Structured Reasoning Framework for Robust Hate Speech Detection in Memes Palash Nandi Shivam Sharma Tanmoy Chakraborty 69 1 0 31 Dec 2024
MATCHED: Multimodal Authorship-Attribution To Combat Human Trafficking in Escort-Advertisement Data V. Saxena Benjamin Bashpole Gijs van Dijck Gerasimos Spanakis 91 0 0 18 Dec 2024
Bringing Multimodality to Amazon Visual Search System Xinliang Zhu Michael Huang Han Ding Jinyu Yang Kelvin Chen ... Son Dinh Tran Benjamin Z. Yao Doug Gray Anuj Bindal Arnab Dhua 112 3 0 17 Dec 2024
Does VLM Classification Benefit from LLM Description Semantics? Pingchuan Ma Lennart Rietdorf Dmytro Kotovenko Vincent Tao Hu Bjorn Ommer VLM 148 1 0 16 Dec 2024
Advances in Transformers for Robotic Applications: A Review Nikunj Sanghai Nik Bear Brown AI4CE 148 0 0 13 Dec 2024
Unified Framework for Open-World Compositional Zero-shot Learning Hirunima Jayasekara Khoi Pham Nirat Saini Abhinav Shrivastava 94 0 0 05 Dec 2024
AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations? Shouwei Ruan Hanqin Liu Yao Huang Xiaoqi Wang Caixin Kang Hang Su Yinpeng Dong Xingxing Wei VGen 220 0 0 04 Dec 2024
Eyes on the Road: State-of-the-Art Video Question Answering Models Assessment for Traffic Monitoring Tasks Joseph Raj Vishal Divesh Basina Aarya Choudhary Bharatesh Chakravarthi 147 1 0 02 Dec 2024
Exploring Large Vision-Language Models for Robust and Efficient Industrial Anomaly Detection Kun Qian Tianyu Sun Wenhong Wang 113 0 0 01 Dec 2024
AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment Yan Li Yifei Xing X. Lan Xuzhao Li Haifeng Chen D. Jiang Mamba 141 1 0 01 Dec 2024
MIMIC: Multimodal Islamophobic Meme Identification and Classification Safrin Sanzida Islam Sahid Hossain Mustakim Sadia Ahmmed Md. Faiyaz Abdullah Sayeedi Swapnil Khandoker Syed Tasdid Azam Dhrubo Nahid Md Lokman Hossain 103 0 0 01 Dec 2024
Approximate Fiber Product: A Preliminary Algebraic-Geometric Perspective on Multimodal Embedding Alignment Dongfang Zhao 76 0 0 30 Nov 2024
VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis Donggoo Kang Dasol Jeong Hyunmin Lee Sangwoo Park Hasil Park Sunkyu Kwon Yeongjoon Kim Joonki Paik MLLM VLM 148 0 0 27 Nov 2024
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios Shantanu Jaiswal Debaditya Roy Basura Fernando Cheston Tan ReLM LRM 138 2 0 20 Nov 2024
A Comprehensive Survey on Visual Question Answering Datasets and Algorithms Raihan Kabir Naznin Haque Md. Saiful Islam Marium-E. Jannat CoGe 85 1 0 17 Nov 2024
Prompt-enhanced Network for Hateful Meme Classification Junxi Liu Yanyan Feng Jiehai Chen Yun Xue Fenghuan Li VLM 111 0 0 12 Nov 2024
Renaissance: Investigating the Pretraining of Vision-Language Encoders Clayton Fields C. Kennington VLM 59 0 0 11 Nov 2024
Harmful YouTube Video Detection: A Taxonomy of Online Harm and MLLMs as Alternative Annotators Claire Jo Miki Wesołowska Magdalena Wojcieszak 73 6 0 06 Nov 2024
Multimodal Commonsense Knowledge Distillation for Visual Question Answering Shuo Yang Siwen Luo S. Han LRM 46 1 0 05 Nov 2024
Can Multimodal Large Language Model Think Analogically? Diandian Guo Cong Cao Fangfang Yuan Dakui Wang Wei Ma Yanbing Liu Jianhui Fu LRM 105 1 0 02 Nov 2024
R-LLaVA: Improving Med-VQA Understanding through Visual Region of Interest Xupeng Chen Zhixin Lai Kangrui Ruan Shichu Chen Jiaxiang Liu Zuozhu Liu 140 3 0 27 Oct 2024
LLM-Consensus: Multi-Agent Debate for Visual Misinformation Detection Kumud Lakara Juil Sock Christian Rupprecht Philip Torr John Collomosse Christian Schroeder de Witt Christian Schroeder de Witt 74 4 0 26 Oct 2024
Deep Insights into Cognitive Decline: A Survey of Leveraging Non-Intrusive Modalities with Deep Learning Techniques David Ortiz-Perez Manuel Benavent-Lledo José García Rodríguez David Tomás M. Flores Vizcaya-Moreno 69 1 0 24 Oct 2024
A Survey of Multimodal Sarcasm Detection Shafkat Farabi Tharindu Ranasinghe Diptesh Kanojia Yu Kong Marcos Zampieri 51 4 0 24 Oct 2024
Exploiting Text-Image Latent Spaces for the Description of Visual Concepts Laines Schmalwasser J. Gawlikowski Joachim Denzler Julia Niebling 57 2 0 23 Oct 2024
Reducing Hallucinations in Vision-Language Models via Latent Space Steering Sheng Liu Haotian Ye Lei Xing James Zou VLM LLMSV 162 9 0 21 Oct 2024
ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla Deeparghya Dutta Barua Md Sakib Ul Rahman Sourove Md Fahim Fabiha Haider Fariha Tanjim Shifat Md Tasmim Rahman Adib Anam Borhan Uddin Md Farhan Ishmam Md Farhad Alam 79 0 0 19 Oct 2024
ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering Nghia Hieu Nguyen Tho Thanh Quan Ngan Luu-Thuy Nguyen 75 0 0 18 Oct 2024
VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks Shailaja Keyur Sampat Mutsumi Nakamura Shankar Kailas Kartik Aggarwal Mandy Zhou Yezhou Yang Chitta Baral MLLM CoGe ReLM VLM LRM 78 0 0 17 Oct 2024
Seeing Through VisualBERT: A Causal Adventure on Memetic Landscapes Dibyanayan Bandyopadhyay Mohammed Hasanuzzaman Asif Ekbal AAML 55 1 0 17 Oct 2024
CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training Zhiyuan Ma Jianjun Li Guohui Li Kaiyan Huang VLM 120 9 0 16 Oct 2024
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling Jian Yang Dacheng Yin Yizhou Zhou Fengyun Rao Wei-dong Zhai Yang Cao Zheng-jun Zha DiffM 70 6 0 14 Oct 2024
Leveraging Customer Feedback for Multi-modal Insight Extraction Sandeep Sricharan Mukku Abinesh Kanagarajan Pushpendu Ghosh Chetan Aggarwal 29 0 0 13 Oct 2024