Title
Gaussian Difference: Find Any Change Instance in 3D Scenes Binbin Jiang Rui Huang Qingyi Zhao Yuxiang Zhang 118 0 0 24 Feb 2025
LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation Shuai Yang Jing Tan Mengchen Zhang Tong Wu Yongqian Li Gordon Wetzstein Ziwei Liu Dahua Lin MDE VGen 175 11 0 24 Feb 2025
Soybean pod and seed counting in both outdoor fields and indoor laboratories using unions of deep neural networks Tianyou Jiang Mingshun Shao Tianyi Zhang Xiaoyu Liu Qun Yu 114 0 0 24 Feb 2025
Vision-LSTM: xLSTM as Generic Vision Backbone Benedikt Alkin M. Beck Korbinian Poppel Sepp Hochreiter Johannes Brandstetter VLM 239 53 0 24 Feb 2025
Anatomy-Informed Deep Learning and Radiomics for Automated Neurofibroma Segmentation in Whole-Body MRI Georgii Kolokolnikov Marie-Lena Schmalhofer Lennart Well Said Farschtschi Victor-Felix Mautner Inka Ristow Rene Werner AI4CE 92 0 0 24 Feb 2025
Deep learning approaches to surgical video segmentation and object detection: A Scoping Review Devanish N. Kamtam Joseph B. Shrager Satya Deepya Malla Nicole Lin Juan J. Cardona Jake J. Kim Clarence Hu 71 2 0 23 Feb 2025
USegMix: Unsupervised Segment Mix for Efficient Data Augmentation in Pathology Images Jiamu Wang Jin Tae Kwak MedIm 92 1 0 22 Feb 2025
Audio Visual Segmentation Through Text Embeddings Kyungbok Lee You Zhang Z. Duan 154 0 0 22 Feb 2025
DynamicGSG: Dynamic 3D Gaussian Scene Graphs for Environment Adaptation Luzhou Ge Xiangyu Zhu Zhuo Yang Xuesong Li 3DGS 144 0 0 21 Feb 2025
FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation Young Beom Woo Sun Eung Kim Seong-Whan Lee DiffM 105 0 0 21 Feb 2025
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers D. She Mushui Liu Jingxuan Pang Jin Wang Zhen Yang ... Yi Wang Qihan Huang Haobin Tang YunLong Yu Siming Fu VGen 230 6 0 21 Feb 2025
Contrastive Localized Language-Image Pre-Training Hong-You Chen Zhengfeng Lai Hao Zhang Xiang Wang Marcin Eichner Keen You Meng Cao Bowen Zhang Yue Yang Zhe Gan CLIP VLM 124 12 0 20 Feb 2025
SMITE: Segment Me In TimE Amirhossein Alimohammadi Sauradip Nag Saeid Asgari Taghanaki Andrea Tagliasacchi Ghassan Hamarneh Ali Mahdavi-Amiri VLM VOS 542 3 0 20 Feb 2025
Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments Luca Barsellotti Roberto Bigazzi Marcella Cornia Lorenzo Baraldi Rita Cucchiara 245 1 0 20 Feb 2025
Black Sheep in the Herd: Playing with Spuriously Correlated Attributes for Vision-Language Recognition Xinyu Tian Shu Zou Zhaoyuan Yang Mengqi He Jing Zhang VLM 113 0 0 19 Feb 2025
UPCMR: A Universal Prompt-guided Model for Random Sampling Cardiac MRI Reconstruction Donghang Lyu Chinmay Rao Marius Staring M. Osch M. Doneva Hildo J. Lamb Nicola Pezzotti 85 1 0 18 Feb 2025
Pre-training Auto-regressive Robotic Models with 4D Representations Dantong Niu Yuvan Sharma Haoru Xue Giscard Biamby Junyi Zhang Ziteng Ji Trevor Darrell Roei Herzig 182 4 0 18 Feb 2025
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image Kaixin Yao Longwen Zhang Xinhao Yan Yan Zeng Qixuan Zhang Wei Yang Lan Xu Jiayuan Gu Jingyi Yu 149 10 0 18 Feb 2025
L4P: Low-Level 4D Vision Perception Unified Abhishek Badki Hang Su Bowen Wen Orazio Gallo VLM 187 2 0 18 Feb 2025
SAM-LAD: Segment Anything Model Meets Zero-Shot Logic Anomaly Detection Yun Peng Xiao Lin Nachuan Ma Jiayuan Du Chuangwei Liu Chengju Liu Qi Chen 206 3 0 17 Feb 2025
Investigating Inference-time Scaling for Chain of Multi-modal Thought: A Preliminary Study Yujie Lin Ante Wang Moye Chen Jingyao Liu Hao Liu Jinsong Su Xinyan Xiao LRM 164 3 0 17 Feb 2025
Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition Khanh Nguyen Ghulam Mubashar Hassan Ajmal Mian 3DPC 96 0 0 15 Feb 2025
HIPPo: Harnessing Image-to-3D Priors for Model-free Zero-shot 6D Pose Estimation Yibo Liu Zhaodong Jiang Binbin Xu Guile Wu Y. Ren Tongtong Cao Bingbing Liu Rui Heng Yang Amir Rasouli J. Shan 107 2 0 14 Feb 2025
FusionForce: End-to-end Differentiable Neural-Symbolic Layer for Trajectory Prediction R. Agishev Karel Zimmermann 267 0 0 14 Feb 2025
E-MD3C: Taming Masked Diffusion Transformers for Efficient Zero-Shot Object Customization T. Pham Zhang Kang Ji Woo Hong Xuran Zheng Chang D. Yoo 150 0 0 13 Feb 2025
Wholly-WOOD: Wholly Leveraging Diversified-quality Labels for Weakly-supervised Oriented Object Detection Yi Yu Xue Yang Yansheng Li Zhenjun Han Feipeng Da Junchi Yan 104 0 0 13 Feb 2025
Color Universal Design Neural Network for the Color Vision Deficiencies Sunyong Seo Jinho Park 110 0 0 12 Feb 2025
Bilevel Learning for Bilevel Planning Bowen Li Tom Silver Sebastian A. Scherer Alexander G. Gray 300 2 0 12 Feb 2025
MatSwap: Light-aware material transfers in images Ivan Lopes Valentin Deschaintre Yannick Hold-Geoffroy Raoul de Charette DiffM 239 0 0 11 Feb 2025
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance Li Hu Guangyuan Wang Zhen Shen Xin Gao Dechao Meng Lian Zhuo Peng Zhang Bang Zhang Liefeng Bo DiffM VGen 188 21 0 10 Feb 2025
UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths Weijia Mao Zhiyong Yang Mike Zheng Shou MoE 250 1 0 10 Feb 2025
Fully Exploiting Vision Foundation Model's Profound Prior Knowledge for Generalizable RGB-Depth Driving Scene Parsing Sicen Guo Tianyou Wen Chuang-Wei Liu Qijun Chen Rui Fan 130 0 0 10 Feb 2025
FunduSAM: A Specialized Deep Learning Model for Enhanced Optic Disc and Cup Segmentation in Fundus Images Jinchen Yu Yongwei Nie Fei Qi Wenxiong Liao Hongmin Cai MedIm 101 1 0 10 Feb 2025
MoFM: A Large-Scale Human Motion Foundation Model Mohammadreza Baharani Ghazal Alinezhad Noghre Armin Danesh Pazho Gabriel Maldonado Hamed Tabkhi AI4CE 483 1 0 08 Feb 2025
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More Feng Wang Yaodong Yu Guoyizhe Wei Wei Shao Yuyin Zhou Alan Yuille Cihang Xie ViT 159 8 0 06 Feb 2025
No Free Lunch in Annotation either: An objective evaluation of foundation models for streamlining annotation in animal tracking Emil Mededovic Valdy Laurentius Yuli Wu Marcin Kopaczka Zhu Chen Mareike Schulz René Tolba Johannes Stegmaier 181 1 0 06 Feb 2025
PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models? Mennatullah Siam VLM 228 1 0 06 Feb 2025
LeAP: Consistent multi-domain 3D labeling using Foundation Models Simon Gebraad Andras Palffy Holger Caesar 364 2 0 06 Feb 2025
Point2RBox-v2: Rethinking Point-supervised Oriented Object Detection with Spatial Layout Among Instances Yi Yu Botao Ren Peiyuan Zhang Mingxin Liu Junwei Luo Shaofeng Zhang Feipeng Da Junchi Yan Xue Yang 3DPC 206 3 0 06 Feb 2025
Controllable Satellite-to-Street-View Synthesis with Precise Pose Alignment and Zero-Shot Environmental Control Xianghui Ze Zhenbo Song Qiwei Wang Jianfeng Lu Yujiao Shi 116 1 0 05 Feb 2025
ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models Ying Zhang Maoliang Yin Wenfu Bi Haibao Yan Shaohan Bian Cui-Hua Zhang C. Hua 127 2 0 05 Feb 2025
Articulate AnyMesh: Open-Vocabulary 3D Articulated Objects Modeling Xiaowen Qiu Jincheng Yang Yian Wang Zhehuan Chen Yufei Wang Tsun-Hsuan Wang Zhou Xian Chuang Gan 271 9 0 04 Feb 2025
AquaticCLIP: A Vision-Language Foundation Model for Underwater Scene Analysis B. Alawode I. I. Ganapathi S. Javed Naoufel Werghi Mohammed Bennamoun Arif Mahmood CLIP VLM 126 1 0 03 Feb 2025
Scalable, Training-Free Visual Language Robotics: A Modular Multi-Model Framework for Consumer-Grade GPUs Marie Samson Bastien Muraccioli Fumio Kanehiro 201 2 0 03 Feb 2025
Exploring Few-Shot Defect Segmentation in General Industrial Scenarios with Metric Learning and Vision Foundation Models Tongkun Liu Bing Li Xiao Jin Yupeng Shi Qiuying Li Xiang Wei 151 0 0 03 Feb 2025
DesCLIP: Robust Continual Adaptation via General Attribute Descriptions for Pretrained Vision-Language Models Chiyuan He Zihuan Qiu Fanman Meng Linfeng Xu Qi Wu Haoyang Li VLM CLL KELM 166 0 0 02 Feb 2025
PM-MOE: Mixture of Experts on Private Model Parameters for Personalized Federated Learning Yu Feng Yangli-ao Geng Yifan Zhu Zongfu Han Xie Yu Kaiwen Xue Haoran Luo Mengyang Sun Guangwei Zhang Meina Song FedML MoE 151 0 0 01 Feb 2025
Laser: Efficient Language-Guided Segmentation in Neural Radiance Fields Xingyu Miao Haoran Duan Yang Bai Tejal Shah Jun Song Yang Long R. Ranjan Ling Shao 175 6 0 31 Jan 2025
A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches Luca Ciampi Ali Azmoudeh Elif Ecem Akbaba Erdi Sarıtaş Ziya Ata Yazıcı H. K. Ekenel Giuseppe Amato Fabrizio Falchi 204 0 0 31 Jan 2025
Lifting by Gaussians: A Simple, Fast and Flexible Method for 3D Instance Segmentation Rohan Chacko Nicolai Haeni Eldar Khaliullin Lin Sun Douglas Lee 3DGS 167 2 0 31 Jan 2025