Vision-Language Models

VLM

More data

Models that can understand and generate both visual and textual information.

Neighbor communities

51015

Featured Papers

0 / 0 papers shown

All papers

50 / 15,437 papers shown

When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs Pegah Khayatan Jayneel Parekh Arnaud Dapogny Mustafa Shukor Alasdair Newson Matthieu Cord MLLM VLM 1 0 0 23 Apr 2026
GiVA: Gradient-Informed Bases for Vector-Based Adaptation Neeraj Gangwar Rishabh Deshmukh Michael Shavlovsky Hancao Li Vivek Mittal Lexing Ying Nickvash Kani VLM AI4CE 2 0 0 23 Apr 2026
TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale Jun Wang Ziyin Zhang Rui Wang Hang Yu Peng Di Rui Wang VLM 1 0 0 23 Apr 2026
Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training Yaxuan Li Zhongyi Zhou Yefei Chen Yanjiang Guo Jiaming Liu Shanghang Zhang Jianyu Chen Yichen Zhu OffRL VLM 1 0 0 23 Apr 2026
Ramen: Robust Test-Time Adaptation of Vision-Language Models with Active Sample Selection Wenxuan Bao Yanjun Zhao Xiyuan Yang Jingrui He VLM TTA 0 0 0 23 Apr 2026
WorldMark: A Unified Benchmark Suite for Interactive Video World Models Xiaojie Xu Zhengyuan Lin Kang He Yukang Feng Xiaofeng Mao Yuanyang Yin Kaipeng Zhang Yongtao Ge VGen ELM VLM 0 0 0 23 Apr 2026
Sapiens2 Rawal Khirodkar He Wen Julieta Martinez Yuan Dong Su Zhaoen Shunsuke Saito MedIm VLM MDE 0 0 0 23 Apr 2026
Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models Mohammed Safi Ur Rahman Khan Sanjay Suryanarayanan Tushar Anand Mitesh M. Khapra MLLM VLM LRM 2 0 0 23 Apr 2026
OptiVerse: A Comprehensive Benchmark towards Optimization Problem Solving Xinyu Zhang Boxuan Zhang Yuchen Wan Lingling Zhang YiXing Yao Bifan Wei Yaqiang Wu Jun Liu VLM LRM 1 0 0 23 Apr 2026
Prototype-Based Test-Time Adaptation of Vision-Language Models Zhaohong Huang Yuxin Zhang Wenjing Liu Fei Chao Rongrong Ji VLM TTA 0 0 0 23 Apr 2026
Unlocking Multi-Spectral Data for Multi-Modal Models with Guided Inputs and Chain-of-Thought Reasoning Dahun Kim Ganesh Satish Mallya Anelia Angelova VLM LRM 1 0 0 22 Apr 2026
Mitigating Hallucinations in Large Vision-Language Models without Performance Degradation Xingyu Zhu Junfeng Fang Shuo Wang Beier Zhu Zhicai Wang Yonghui Yang Xiangnan He MLLM VLM 2 0 0 22 Apr 2026
Hallucination Early Detection in Diffusion Models Federico Betti Lorenzo Baraldi Lorenzo Baraldi Rita Cucchiara Nicu Sebe VLM 1 0 0 22 Apr 2026
Cortex 2.0: Grounding World Models in Real-World Industrial Deployment Adriana Aida Walida Amer Katarina Bankovic Dhruv Behl Fabian Busch ... Carsten Sponner Anh Tong Dominik Tuscher Marc Tuscher Pavan Upputuri LM&Ro VLM 4 0 0 22 Apr 2026
From Scene to Object: Text-Guided Dual-Gaze Prediction Zehong Ke Yanbo Jiang Jinhao Li Zhiyuan Liu Yiqian Tu Qingwen Meng Heye Huang Jianqiang Wang VLM 5 0 0 22 Apr 2026
Semantic-Fast-SAM: Efficient Semantic Segmenter Byunghyun Kim VLM 2 0 0 22 Apr 2026
Energy-Based Open-Set Active Learning for Object Classification Zongyao Lyu William J. Beksi EDL OCL VLM 2 0 0 22 Apr 2026
EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training Yiyang Du Zhanqiu Guo Xin Ye Liu Ren Chenyan Xiong VLM 1 0 0 21 Apr 2026
DistortBench: Benchmarking Vision Language Models on Image Distortion Identification Divyanshu Goyal Akhil Eppa Vanya Bannihatti Kumar VLM CoGe 7 0 0 21 Apr 2026
CoCo-SAM3: Harnessing Concept Conflict in Open-Vocabulary Semantic Segmentation Yanhui Chen Baoyao Yang Siqi Liu Jingchao Wang ISeg VLM 8 0 0 21 Apr 2026
LiveVLN: Breaking the Stop-and-Go Loop in Vision-Language Navigation Xiangchen Wang Weiye Zhu Teng Wang TianTian Geng Zekai Zhang Zhiyuan Qi Jinyu Yang Feng Zheng VLM 6 0 0 21 Apr 2026
Deep sprite-based image models: An analysis Zeynep Sonat Baltacı Romain Loiseau Mathieu Aubry DiffM OCL VLM 6 0 0 21 Apr 2026
DINO Eats CLIP: Adapting Beyond Knowns for Open-set 3D Object Retrieval Xinwei He Yansong Zheng Qianru Han Zhichuan Wang Yuxuan Cai Yang Zhou Jingbo Xia Yulong Wang Jinhai Xiang Xiang Bai VLM 6 0 0 21 Apr 2026
VCE: A zero-cost hallucination mitigation method of LVLMs via visual contrastive editing Yanbin Huang Yisen Li Guiyao Tie Xiaoye Qu Pan Zhou Hongfei Wang Zhaofan Zou Hao Sun Xuelong Li MLLM VLM 12 0 0 21 Apr 2026
HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models Feiyu Zhao Yiming Chen Wenhuan Lu Daipeng Zhang Xianghu Yue Jianguo Wei AuLLM HILM LM&MA ELM VLM 18 0 0 21 Apr 2026
Hierarchically Robust Zero-shot Vision-language Models Junhao Dong Yifei Zhang Hao Zhu Yew-Soon Ong Piotr Koniusz VLM 7 0 0 20 Apr 2026
DUALVISION: RGB-Infrared Multimodal Large Language Models for Robust Visual Reasoning Abrar Majeedi Zhiyuan Ruan Ziyi Zhao Hongcheng Wang Jianglin Lu Yin Li VLM 8 0 0 20 Apr 2026
HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation Zijian Zeng Fei Ding Huiming Yang Xianwei Li VLM 6 0 0 20 Apr 2026
Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations Emily Reif Claire Yang Jared Hwang Deniz Nazar Noah A. Smith Jeff Heer VLM 6 0 0 20 Apr 2026
T-REN: Learning Text-Aligned Region Tokens Improves Dense Vision-Language Alignment and Scalability Savya Khosla Sethuraman T V Aryan Chadha Alex Schwing Derek Hoiem VLM MDE 17 0 0 20 Apr 2026
S2H-DPO: Hardness-Aware Preference Optimization for Vision-Language Models Nitish Shukla Surgan Jandial Arun Ross VLM LRM 16 0 0 20 Apr 2026
ESsEN: Training Compact Discriminative Vision-Language Transformers in a Low-Resource Setting Clayton Fields Casey Kennington VLM 6 0 0 20 Apr 2026
ProtoCLIP: Prototype-Aligned Latent Refinement for Robust Zero-Shot Chest X-Ray Classification Florian Kittler Sheethal Bhat Andreas Maier VLM 4 0 0 20 Apr 2026
Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval HaeJun Yoo Yongseop Shin Insung Lee Myoung-Wan Koo Du-Seong Chang AuLLM VLM 5 0 0 20 Apr 2026
OmniHuman: A Large-scale Dataset and Benchmark for Human-Centric Video Generation Lei Zhu Xing Cai Yingjie Chen Yiheng Li Binxin Yang Hao Liu Jie Chen Chen Li Jing LYu EGVM VGen VLM 12 0 0 20 Apr 2026
Spike-NVPT: Learning Robust Visual Prompts via Bio-Inspired Temporal Filtering and Discretization Qiugang Zhan Anning Jiang Ran Tao Ao Ma Xiangyu Zhang Xiurui Xie Guisong Liu VPVLM VLM 5 0 0 20 Apr 2026
Long-Text-to-Image Generation via Compositional Prompt Decomposition Jen-Yuan Huang Tong Lin Yilun Du VLM MDE 15 0 0 20 Apr 2026
Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation Chenxi Zhao Chen Zhu Xiaokun Feng Aiming Hao Jiashu Zhu Jiachen Lei Jiahong Wu Xiangxiang Chu Jufeng Yang VLM 13 0 0 20 Apr 2026
AQPIM: Breaking the PIM Capacity Wall for LLMs with In-Memory Activation Quantization Kosuke Matsushima Yasuyuki Okoshi Masato Motomura Daichi Fujiki MQ VLM 12 0 0 20 Apr 2026
Soft Label Pruning and Quantization for Large-Scale Dataset Distillation Xiao Lingao Yang He DD MQ VLM 9 0 0 20 Apr 2026
Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models Zehua Zang Xi Wang Fuchun Sun Xiao Xu Lixiang Lium Jiahuan Zhou Jiangmeng Li VLM TTA 7 0 0 20 Apr 2026
Prompting Foundation Models for Zero-Shot Ship Instance Segmentation in SAR Imagery Islam Mansour Francescopaolo Sica Michael Schmitt ObjD VLM 8 0 0 20 Apr 2026
GR4CIL: Gap-compensated Routing for CLIP-based Class Incremental Learning Tianqi Wang Jingcai Guo CLL VLM 10 0 0 20 Apr 2026
Source-Free Domain Adaptation with Vision-Language Prior Song Tang Yunxiang Bai Wenxin Su Mao Ye Jianwei Zhang Xiatian Zhu VLM TTA 8 0 0 20 Apr 2026
BioVLM: Routing Prompts, Not Parameters, for Cross-Modality Generalization in Biomedical VLMs Mainak Singha Tanisha Gupta Ankit Jha Muhammad Haris Khan Sayantani Ghosh Biplab Banerjee VLM 6 0 0 19 Apr 2026
From Adaptation to Generalization: Adaptive Visual Prompting for Medical Image Segmentation Evren Çetinkaya Sangmin Lee Jung Uk Kim Hong Joo Lee Nassir Navab MedIm VLM 8 0 0 19 Apr 2026
When Text Hijacks Vision: Benchmarking and Mitigating Text Overlay-Induced Hallucination in Vision Language Models Cui Yakun Xingqun Qi TianTian Geng Yuyao Zhang Sirui Han Yike Guo VLM 6 0 0 19 Apr 2026
Towards Joint Quantization and Token Pruning of Vision-Language Models Xinqing Li Xin He Xindong Zhang Ming-Ming Cheng Lei Zhang Yun Liu MQ VLM 11 0 0 19 Apr 2026
Generalizable Face Forgery Detection via Separable Prompt Learning Enrui Yang Yuezun Li VLM 8 0 0 19 Apr 2026
GaLa: Hypergraph-Guided Visual Language Models for Procedural Planning Kun Wang Yiming Li Mingcheng Qu Aqiang Zhang Guang Yang Tonghua Su LM&Ro VLM 10 0 0 19 Apr 2026

Loading #Papers per Month with "VLM"

Past speakers

Name (-)

Top Contributors

Name (-)

Top Organizations at ResearchTrend.AI

Name (-)

Social Events

Date	Location	Event
No social events available