Title
StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation Daniel A. P. Oliveira D. Matos VGen 27 0 0 15 May 2025
A Unified and Scalable Membership Inference Method for Visual Self-supervised Encoder via Part-aware Capability Jie Zhu Jirong Zha Ding Li Leye Wang 31 0 0 15 May 2025
TT-DF: A Large-Scale Diffusion-Based Dataset and Benchmark for Human Body Forgery Detection Wenkui Yang Zhida Zhang Xiaoqiang Zhou Junxian Duan Jie Cao DiffM 30 0 0 13 May 2025
Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models Donghoon Kim Minji Bae Kyuhong Shim B. Shim 38 0 0 13 May 2025
Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training Yiran Chen Hao Peng Tong Zhang Heng Ji VLM 28 0 0 13 May 2025
Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws Xiyuan Wei Ming Lin Fanjiang Ye Fengguang Song Liangliang Cao My T. Thai Tianbao Yang LLMSV 31 0 0 10 May 2025
Computationally Efficient Diffusion Models in Medical Imaging: A Comprehensive Review Abdullah Tao Huang Ickjai Lee E. Ahn MedIm 26 0 0 09 May 2025
X-Transfer Attacks: Towards Super Transferable Adversarial Attacks on CLIP Hanxun Huang Sarah Monazam Erfani Yige Li Xingjun Ma James Bailey AAML 44 0 0 08 May 2025
VR-RAG: Open-vocabulary Species Recognition with RAG-Assisted Large Multi-Modal Models F. Khan Jun Chen Youssef Mohamed Chun-Mei Feng Mohamed Elhoseiny VLM 33 0 0 08 May 2025
TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation Haokun Lin Teng Wang Yixiao Ge Yuying Ge Zhichao Lu Ying Wei Qingfu Zhang Zhenan Sun Ying Shan MLLM VLM 70 0 0 08 May 2025
FG-CLIP: Fine-Grained Visual and Textual Alignment Chunyu Xie Bin Wang Fanjing Kong Jincheng Li Dawei Liang Gengshen Zhang Dawei Leng Yuhui Yin CLIP VLM 53 0 0 08 May 2025
RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning Liam Boyle Nicolas Baumann Paviththiren Sivasothilingam Michele Magno Luca Benini LM&Ro LRM 51 0 0 06 May 2025
Seeing the Abstract: Translating the Abstract Language for Vision Language Models Davide Talon Federico Girella Ziyue Liu Marco Cristani Yiming Wang VLM 54 0 0 06 May 2025
Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability L. Wang Senmao Li Fei Yang Jianye Wang Ziheng Zhang Yong-Jin Liu Y. Wang Jian Yang DiffM 61 0 0 06 May 2025
Incentivizing Inclusive Contributions in Model Sharing Markets Enpei Zhang Jingyi Chai Rui Ye Yanfeng Wang Siheng Chen TDI FedML 146 0 0 05 May 2025
Using Knowledge Graphs to harvest datasets for efficient CLIP model training Simon Ging Sebastian Walter Jelena Bratulić Johannes Dienert Hannah Bast Thomas Brox CLIP 27 0 0 05 May 2025
Where's the liability in the Generative Era? Recovery-based Black-Box Detection of AI-Generated Content Haoyue Bai Yiyou Sun Wei Cheng Haifeng Chen AAML 51 0 0 02 May 2025
A Survey of Interactive Generative Video Jiwen Yu Yiran Qin Haoxuan Che Quande Liu Xinyu Wang Pengfei Wan Di Zhang Kun Gai Hao Chen Xihui Liu VGen 65 0 0 30 Apr 2025
Visual Text Processing: A Comprehensive Review and Unified Evaluation Yan Shu Weichao Zeng Fangmin Zhao Zeyu Chen Z. Li ... Paolo Rota Xiang Bai Lianwen Jin Xu-Cheng Yin N. Sebe CoGe 61 0 0 30 Apr 2025
AffordanceSAM: Segment Anything Once More in Affordance Grounding D. Jiang Mengmeng Wang Teli Ma Hao Li Yong-Jin Liu Guang Dai L. Zhang 32 0 0 22 Apr 2025
ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data Streams C. Kim Jihwan Moon Sangwoo Moon Heeseung Yun Sihaeng Lee Aniruddha Kembhavi Soonyoung Lee Gunhee Kim Sangho Lee Christopher Clark 31 0 0 21 Apr 2025
Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints Ming Yang Gang Li Quanqi Hu Qihang Lin Tianbao Yang 31 0 0 21 Apr 2025
Context Aware Grounded Teacher for Source Free Object Detection Tajamul Ashraf Rajes Manna Partha Sarathi Purkayastha Tavaheed Tariq Janibul Bashir 25 0 0 21 Apr 2025
Point-Driven Interactive Text and Image Layer Editing Using Diffusion Models Zhenyu Yu Mohd Yamani Idna Idris Pei Wang Yuelong Xia DiffM 26 0 0 18 Apr 2025
ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis Andrea Rigo Luca Stornaiuolo Mauro Martino Bruno Lepri N. Sebe 48 0 0 18 Apr 2025
Post-pre-training for Modality Alignment in Vision-Language Foundation Models Shinýa Yamaguchi Dewei Feng Sekitoshi Kanai Kazuki Adachi Daiki Chijiwa VLM 34 1 0 17 Apr 2025
Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training Xiaotian Zhang Yarong Zeng Xinting Huang Hu Hu Runquan Xie Han Hu Zhanhui Kang MLLM VLM 55 0 0 17 Apr 2025
Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis Shravan Chaudhari Trilokya Akula Yoon Kim Tom Blake LRM 45 0 0 16 Apr 2025
TSAL: Few-shot Text Segmentation Based on Attribute Learning Chenming Li Chengxu Liu Yuanting Fan Xiao Jin Xingsong Hou Xueming Qian VLM 45 0 0 15 Apr 2025
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception Ziqi Pang Xin Xu Yu-Xiong Wang DiffM 67 0 0 15 Apr 2025
UP-Person: Unified Parameter-Efficient Transfer Learning for Text-based Person Retrieval Yating Liu Yaowei Li Xiangyuan Lan Wenming Yang Zimo Liu Q. Liao 34 0 0 14 Apr 2025
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model Yang Shi Jiaheng Liu Yushuo Guan Zhikai Wu Yuyao Zhang ... Bohan Zeng Wei Zhang Fuzheng Zhang Wenjing Yang Di Zhang VGen VLM 73 0 0 14 Apr 2025
OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training Juntao Zhao Qi Lu Wei Jia Borui Wan Lei Zuo ... Size Zheng H. Lin Haibin Lin Xin Liu Chuan Wu AI4CE 37 0 0 14 Apr 2025
Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception Ruotian Peng Haiying He Yake Wei Yandong Wen D. Hu VLM 39 0 0 09 Apr 2025
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation Emmanuelle Bourigault A. Jamaludin Abdullah Hamdi 30 0 0 09 Apr 2025
SapiensID: Foundation for Human Recognition Minchul Kim Dingqiang Ye Yiyang Su Feng Liu Xiaoming Liu CVBM VLM 46 0 0 07 Apr 2025
Contour Integration Underlies Human-Like Vision Ben Lonnqvist Elsa Scialom Abdülkadir Gökce Zehra Merchant Michael H. Herzog Martin Schrimpf VLM 39 0 0 07 Apr 2025
SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding Yimin Wei Aoran Xiao Yexian Ren Yuting Zhu Hongruixuan Chen J. Xia Naoto Yokoya VLM 71 0 0 04 Apr 2025
Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation Jiwoo Chung Sangeek Hyun Hyunjun Kim Eunseo Koh MinKyu Lee Jae-Pil Heo 33 0 0 03 Apr 2025
Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision Xiaofeng Han Shunpeng Chen Zenghuang Fu Zhe Feng Lue Fan ... Li Guo Weiliang Meng Xiaopeng Zhang Rongtao Xu Shibiao Xu 74 1 0 03 Apr 2025
X-Capture: An Open-Source Portable Device for Multi-Sensory Learning Samuel Clarke Suzannah Wistreich Yanjie Ze Jiajun Wu 41 0 0 03 Apr 2025
DALIP: Distribution Alignment-based Language-Image Pre-Training for Domain-Specific Data Junjie Wu Jiangtao Xie Zhaolin Zhang Qilong Wang Q. Hu P. Li Sen Xu VLM 47 0 0 02 Apr 2025
UniViTAR: Unified Vision Transformer with Native Resolution Limeng Qiao Yiyang Gan Bairui Wang Jie Qin Shuang Xu Siqi Yang Lin Ma 57 0 0 02 Apr 2025
Random Conditioning with Distillation for Data-Efficient Diffusion Model Compression Dohyun Kim S. Park Geonhee Han Seung Wook Kim Paul Hongsuck Seo DiffM 58 0 0 02 Apr 2025
Scaling Prompt Instructed Zero Shot Composed Image Retrieval with Image-Only Data Yiqun Duan Sameera Ramasinghe Stephen Gould Ajanthan Thalaiyasingam 43 0 0 01 Apr 2025
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources Weizhi Wang Yu Tian L. Yang Heng Wang Xifeng Yan MLLM VLM 79 0 0 01 Apr 2025
Exploring the Collaborative Advantage of Low-level Information on Generalizable AI-Generated Image Detection Ziyin Zhou Ke Sun Zhongxi Chen Xianming Lin Yunpeng Luo Ke Yan Shouhong Ding Xiaoshuai Sun 36 0 0 01 Apr 2025
A Survey on Remote Sensing Foundation Models: From Vision to Multimodality Ziyue Huang Hongxi Yan Qiqi Zhan Shuai Yang Mingming Zhang Chenkai Zhang Yiming Lei Zeming Liu Qingjie Liu Yixuan Wang 49 0 0 28 Mar 2025
SocialGen: Modeling Multi-Human Social Interaction with Language Models Heng Yu Juze Zhang Changan Chen Tiange Xiang Yusu Fang Juan Carlos Niebles Ehsan Adeli VGen 49 0 0 28 Mar 2025
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis Jike Zhong Qilong Wu Xinyue Li Bo Zhang Ming-xing Li ... Hao Li Yu Qiao Peng Gao Bin Fu Zhen Li EGVM 45 0 0 27 Mar 2025