Title
Vision Generalist Model: A Survey Ziyi Wang Yongming Rao Shuofeng Sun Xinrun Liu Yi Wei ... Zuyan Liu Yanbo Wang Hongmin Liu Jie Zhou Jiwen Lu 60 0 0 11 Jun 2025
AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models Zheda Mai A. Chowdhury Zihe Wang Sooyoung Jeon Lemeng Wang Jiacheng Hou Jihyung Kil Wei-Lun Chao CoGe 50 0 0 10 Jun 2025
Synthetic Visual Genome J. S. Park Zixian Ma Linjie Li Chenhao Zheng Cheng-Yu Hsieh ... Quan Kong Norimasa Kobori Ali Farhadi Yejin Choi Ranjay Krishna 16 0 0 09 Jun 2025
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs Haoyuan Li Yanpeng Zhou Yufei Gao Tao Tang J. N. Han Yujie Yuan Dave Zhenyu Chen Jiawang Bian Hang Xu Xiaodan Liang 107 0 0 05 Jun 2025
Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques Jisu An Junseok Lee Jeoungeun Lee Yongseok Son 144 0 0 05 Jun 2025
LlamaSeg: Image Segmentation via Autoregressive Mask Generation Jiru Deng Tengjin Weng Tianyu Yang Wenhan Luo Zhiheng Li Wenhao Jiang VLM 142 0 0 26 May 2025
MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection Shuyu Wang Weiqi Li Qian Wang Shijie Zhao Jian Zhang DiffM 51 0 0 25 May 2025
Vision language models have difficulty recognizing virtual objects Tyler Tran Sangeet Khemlani J. Gregory Trafton 117 0 0 15 May 2025
Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving Zongchuang Zhao Haoyu Fu Dingkang Liang Xin Zhou Dingyuan Zhang Hongwei Xie Bing Wang Xiang Bai MLLM VLM 118 0 0 13 May 2025
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges Ranjan Sapkota Yang Cao Konstantinos I. Roumeliotis Manoj Karkee LM&Ro 402 2 0 07 May 2025
Learning Streaming Video Representation via Multitask Training Yibin Yan Jilan Xu Shangzhe Di Yikun Liu Yudi Shi Qirui Chen Zeqian Li Yifei Huang Weidi Xie CLL 156 1 0 28 Apr 2025
AutoP2C: An LLM-Based Agent Framework for Code Repository Generation from Multimodal Content in Academic Papers Zijie Lin Yiqing Shen Qilin Cai He Sun Jinrui Zhou Mingjun Xiao 136 0 0 28 Apr 2025
TerraMind: Large-Scale Generative Multimodality for Earth Observation Johannes Jakubik Felix Yang Benedikt Blumenstiel Erik Scheurer Rocco Sedona ... P. Fraccaro Thomas Brunschwiler Gabriele Cavallaro Juan Bernabé-Moreno Nicolas Longépé MLLM VLM 115 6 0 15 Apr 2025
SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model Kaiyu Li Zepeng Xin Li Pang Chao Pang Yupeng Deng Jing Yao Guisong Xia Deyu Meng Zhi Wang Xiangyong Cao VLM LRM 93 4 0 13 Apr 2025
COP-GEN-Beta: Unified Generative Modelling of COPernicus Imagery Thumbnails Miguel Espinosa V. Marsocci Yuru Jia Elliot J. Crowley Mikolaj Czerkawski DiffM 104 0 0 11 Apr 2025
Efficient Adaptation For Remote Sensing Visual Grounding Hasan Moughnieh Mohamad Chalhoub Hasan Nasrallah Cristiano Nattero Paolo Campanella Giovanni Nico A. Ghandour 109 0 0 29 Mar 2025
NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving Fuhao Li Huan Jin Bin-Bin Gao Liaoyuan Fan Lihui Jiang Long Zeng 127 2 0 28 Mar 2025
AutoComPose: Automatic Generation of Pose Transition Descriptions for Composed Pose Retrieval Using Multimodal LLMs Yi-Ting Shen Sungmin Eum Doheon Lee Rohit Shete Chiao-Yi Wang H. Kwon Shuvra S. Bhattacharyya 85 0 0 28 Mar 2025
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model Tao Wang Changxu Cheng Lingfeng Wang Senda Chen Wuyue Zhao VLM 95 1 0 17 Mar 2025
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 Zhaoyi Li Xiaohan Zhao Dong-Dong Wu Jiacheng Cui Zhiqiang Shen AAML VLM 144 3 0 13 Mar 2025
VisRL: Intention-Driven Visual Perception via Reinforced Reasoning Zhangquan Chen Xufang Luo Dongsheng Li OffRL LRM 141 3 0 10 Mar 2025
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding Yan Tai Luhao Zhu Zhiqiang Chen Ynan Ding Yiying Dong Xiaohong Liu Guodong Guo MLLM ObjD 97 0 0 10 Mar 2025
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface Hao Tang Chenwei Xie Haiyang Wang Xiaoyi Bao Tingyu Weng Pandeng Li Yun Zheng Liwei Wang ObjD VLM 130 1 0 03 Mar 2025
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling Yi Wang Xinhao Li Ziang Yan Yinan He Jiashuo Yu ... Kai Chen Wenhai Wang Yu Qiao Yali Wang Limin Wang 180 51 0 21 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 166 15 0 06 Jan 2025
Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks Leo Franklin Apiradee Boonmee Kritsada Wongsuwan MLLM VLM 99 0 0 05 Jan 2025
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing Hao Fei Shengqiong Wu Hao Zhang Tat-Seng Chua Shuicheng Yan 173 42 0 31 Dec 2024
Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes Antonio Carlos Rivera Anthony Moore Steven Robinson VLM LRM 127 0 0 16 Dec 2024
Optimizing Vision-Language Interactions Through Decoder-Only Models Kaito Tanaka Benjamin Tan Brian Wong VLM 145 0 0 14 Dec 2024
Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives Ji-jun Park Soo-joon Choi VGen 139 0 0 14 Dec 2024
GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding Yawen Shao Wei-dong Zhai Yuhang Yang Hongchen Luo Yang Cao Zheng-jun Zha 168 1 0 29 Nov 2024
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding Qing Jiang Gen Luo Yuqin Yang Yuda Xiong Yihao Chen Zhaoyang Zeng Tianhe Ren Lei Zhang VLM LRM 193 10 0 27 Nov 2024
GeoGround: A Unified Large Vision-Language Model for Remote Sensing Visual Grounding Yimiao Zhou Mengcheng Lan Xiang Li Yiping Ke Yiping Ke Xue Jiang Qingyun Li Xue Yang Wayne Zhang ObjD VLM 258 7 0 16 Nov 2024
Advancing Fine-Grained Visual Understanding with Multi-Scale Alignment in Multi-Modal Models Wei Wang Zechao Li Qi Xu Linfeng Li Yiqing Cai Botian Jiang Hang Song Xingcan Hu Pengyu Wang Li Xiao 69 4 0 14 Nov 2024
CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models Junho Kim Hyungjin Chung Byung-Hoon Kim VLM 112 0 0 11 Nov 2024
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective Shenghao Xie Wenqiang Zu Mingyang Zhao Duo Su Shilong Liu Ruohua Shi Guoqi Li Shanghang Zhang Lei Ma LRM 151 3 0 29 Oct 2024
TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning Xiangyu Zeng Kunchang Li Chenting Wang Xinhao Li Tianxiang Jiang ... Zhengrong Yue Yi Wang Yali Wang Yu Qiao Limin Wang MLLM VLM AI4TS 115 18 0 25 Oct 2024
MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding Yue Cao Yangzhou Liu Zhe Chen Guangchen Shi Wenhai Wang Danhuai Zhao Tong Lu 114 9 0 15 Oct 2024
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness Chenming Zhu Tai Wang Wenwei Zhang Jiangmiao Pang Xihui Liu 242 52 0 26 Sep 2024
MM-CamObj: A Comprehensive Multimodal Dataset for Camouflaged Object Scenarios Jiacheng Ruan Wenzhen Yuan Zehao Lin Ning Liao Zhiyu Li Feiyu Xiong Ting Liu Yuzhuo Fu 90 5 0 24 Sep 2024
Visual Prompting in Multimodal Large Language Models: A Survey Junda Wu Zhehao Zhang Yu Xia Xintong Li Zhaoyang Xia ... Subrata Mitra Dimitris N. Metaxas Lina Yao Jingbo Shang Julian McAuley VLM LRM 105 21 0 05 Sep 2024
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity Yangzhou Liu Yue Cao Zhangwei Gao Weiyun Wang Zhe Chen ... Lewei Lu Xizhou Zhu Tong Lu Yu Qiao Jifeng Dai VLM MLLM 112 29 0 22 Jul 2024
Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation Seonghoon Yu Paul Hongsuck Seo Jeany Son DiffM 141 6 0 10 Jul 2024
Needle In A Multimodal Haystack Weiyun Wang Shuibo Zhang Yiming Ren Yuchen Duan Tiantong Li ... Ping Luo Yu Qiao Jifeng Dai Wenqi Shao Wenhai Wang VLM 112 24 0 11 Jun 2024
Chameleon: Mixed-Modal Early-Fusion Foundation Models Chameleon Team MLLM 210 338 0 16 May 2024
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites Zhe Chen Weiyun Wang Hao Tian Shenglong Ye Zhangwei Gao ... Tong Lu Dahua Lin Yu Qiao Jifeng Dai Wenhai Wang MLLM VLM 145 644 0 25 Apr 2024
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation Yuying Ge Sijie Zhao Jinguo Zhu Yixiao Ge Kun Yi Lin Song Chen Li Xiaohan Ding Ying Shan VLM 128 142 0 22 Apr 2024
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi VLM ObjD 110 65 0 19 Apr 2024
In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation Han Xue Qianru Sun Li Song Wenjun Zhang Zhiwu Huang MLLM 67 0 0 15 Apr 2024
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models Haotian Zhang Haoxuan You Philipp Dufter Bowen Zhang Chen Chen ... Tsu-Jui Fu William Y. Wang Shih-Fu Chang Zhe Gan Yinfei Yang ObjD MLLM 147 51 0 11 Apr 2024