Title
A generalizable 3D framework and model for self-supervised learning in medical imaging Tony Xu Sepehr Hosseini Chris Anderson Anthony Rinaldi Rahul G. Krishnan Anne L. Martel Maged Goubran MedIm 162 3 0 20 Jan 2025
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching Y. Liu Zhichao Sun Baosheng Yu Yitian Zhao Bo Du Yongchao Xu Jun Cheng 74 0 0 20 Jan 2025
Dynamic Scene Understanding from Vision-Language Representations Shahaf Pruss Morris Alper Hadar Averbuch-Elor OCL 503 0 0 20 Jan 2025
Text-guided Synthetic Geometric Augmentation for Zero-shot 3D Understanding Kohei Torimi Ryosuke Yamada Daichi Otsuka Kensho Hara Yuki M. Asano Hirokatsu Kataoka Y. Aoki 3DV 138 0 0 20 Jan 2025
Transfer Learning Strategies for Pathological Foundation Models: A Systematic Evaluation in Brain Tumor Classification Ken Enda Yoshitaka Oda Zen-ichi Tanei Wang Lei Masumi Tsuda ... Shinya Tanaka Takahiro Ogawa Wang Lei Masumi Tsuda Shinya Tanaka 161 0 0 19 Jan 2025
Few-Shot Adaptation of Training-Free Foundation Model for 3D Medical Image Segmentation Xingxin He Yifan Hu Zhaoye Zhou Mohamed Jarraya Fang Liu VLM MedIm 105 2 0 17 Jan 2025
Reducing the Sensitivity of Neural Physics Simulators to Mesh Topology via Pretraining Nathan Vaska Justin Goodwin Robin Walters Rajmonda S. Caceres AAML AI4CE 91 0 0 17 Jan 2025
Continual Test-Time Adaptation for Single Image Defocus Deblurring via Causal Siamese Networks Shuang Cui Yi Li Jiangmeng Li Xiongxin Tang Fuchun Sun Fanjiang Xu Hui Xiong 103 0 0 15 Jan 2025
Anonymization of Documents for Law Enforcement with Machine Learning Manuel Eberhardinger Patrick Takenaka Daniel Grießhaber J. Maucher 125 0 0 13 Jan 2025
BRIGHT: A globally distributed multimodal building damage assessment dataset with very-high-resolution for all-weather disaster response Hongruixuan Chen Jian Song Olivier Dietrich Clifford Broni-bediako Weihao Xuan ... Yimin Wei J. Xia Cuiling Lan Konrad Schindler Naoto Yokoya 276 7 0 10 Jan 2025
Multi-subject Open-set Personalization in Video Generation Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Yuwei Fang Kwot Sin Lee Ivan Skorokhodov Kfir Aberman Jun-Yan Zhu Ming-Hsuan Yang Sergey Tulyakov DiffM VGen 192 13 0 10 Jan 2025
OneLLM: One Framework to Align All Modalities with Language Jiaming Han Kaixiong Gong Yiyuan Zhang Jiaqi Wang Kaipeng Zhang Dahua Lin Yu Qiao Peng Gao Xiangyu Yue MLLM 252 134 0 10 Jan 2025
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images Zixuan Huang Mark Boss Aaryaman Vasishta James M. Rehg Varun Jampani 117 8 0 08 Jan 2025
Universal Features Guided Zero-Shot Category-Level Object Pose Estimation Wentian Qu Chenyu Meng Heng Li Jian Cheng Cuixia Ma Hongan Wang Xiao Zhou Xiaoming Deng Ping Tan 85 0 0 06 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 171 15 0 06 Jan 2025
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking Tingyang Zhang Chen Wang Zhiyang Dou Qingzhe Gao Jiahui Lei Baoquan Chen Lingjie Liu 3DV 119 0 0 06 Jan 2025
MObI: Multimodal Object Inpainting Using Diffusion Models Alexandru Buburuzan Anuj Sharma John Redford P. Dokania Romain Mueller DiffM 195 1 0 06 Jan 2025
Multi-layer Radial Basis Function Networks for Out-of-distribution Detection Amol Khanna Chenyi Ling Derek Everett Edward Raff Nathan Inkawhich OODD 123 0 0 05 Jan 2025
Enhancing Contrastive Learning for Retinal Imaging via Adjusted Augmentation Scales Zijie Cheng Yangqiu Song André Altmann P. Keane Yukun Zhou MedIm 76 0 0 05 Jan 2025
FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance Haicheng Wang Zhemeng Yu Gabriele Spadaro Chen Ju Victor Quétu Enzo Tartaglione Enzo Tartaglione VLM 433 6 0 05 Jan 2025
PatchRefiner V2: Fast and Lightweight Real-Domain High-Resolution Metric Depth Estimation Zhenyu Li Wenqing Cui S. Bhat Peter Wonka MDE 122 0 0 03 Jan 2025
Keypoint Aware Masked Image Modelling Madhava Krishna Convin.AI 136 0 0 03 Jan 2025
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control Yuanpeng Tu Hao Luo Xi Chen S. Ji Xiang Bai Hengshuang Zhao DiffM VGen 160 6 0 02 Jan 2025
RORem: Training a Robust Object Remover with Human-in-the-Loop Ruibin Li Tao Yang Song Guo Lefei Zhang 172 4 0 01 Jan 2025
A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine Hanguang Xiao Feizhong Zhou Xianglong Liu Tianqi Liu Zhipeng Li Xin Liu Xiaoxuan Huang AILaw LM&MA LRM 145 30 0 31 Dec 2024
VersaGen: Unleashing Versatile Visual Control for Text-to-Image Synthesis Zhipeng Chen Lan Yang Yonggang Qi Honggang Zhang Kaiyue Pang Ke Li Yi-Zhe Song DiffM 198 0 0 31 Dec 2024
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 284 5 0 31 Dec 2024
A Bias-Free Training Paradigm for More General AI-generated Image Detection Fabrizio Guillaro Giada Zingarini Ben Usman Avneesh Sud D. Cozzolino L. Verdoliva DiffM 167 7 0 23 Dec 2024
IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks Yaming Zhang Chenqiang Gao Fangcen Liu Junjie Guo Lan Wang Xinggan Peng Deyu Meng 192 0 0 21 Dec 2024
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces Jihan Yang Shusheng Yang Anjali W. Gupta Rilyn Han Li Fei-Fei Saining Xie LRM 212 107 0 18 Dec 2024
NFL-BA: Improving Endoscopic SLAM with Near-Field Light Bundle Adjustment Andrea Dunn Beltran Daniel Rho Marc Niethammer Roni Sengupta Roni Sengupta 186 2 0 17 Dec 2024
GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding Haoyi Jiang Liu Liu Tianheng Cheng Xinjie Wang Tianwei Lin Zhizhong Su Wen Liu Xinyu Wang 3DGS ViT 197 10 0 17 Dec 2024
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes Ruijie Lu Yixin Chen Junfeng Ni Baoxiong Jia Yu Liu Diwen Wan Gang Zeng Siyuan Huang DiffM 235 4 0 16 Dec 2024
Wearable Accelerometer Foundation Models for Health via Knowledge Distillation Salar Abbaspourazad Anshuman Mishra Joseph D. Futoma Andrew C. Miller Ian Shapiro 177 0 0 15 Dec 2024
Vision Transformers for Efficient Indoor Pathloss Radio Map Prediction Rafayel Mkrtchyan Edvard Ghukasyan Khoren Petrosyan Hrant Khachatrian Theofanis P. Raptis 166 0 0 12 Dec 2024
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders Fiona Ryan Ajay Bati Sangmin Lee Daniel Bolya Judy Hoffman James M. Rehg 437 3 0 12 Dec 2024
ArtFormer: Controllable Generation of Diverse 3D Articulated Objects Jiayi Su Youhe Feng Zheng Li Jinhua Song Yangfan He Botao Ren Botian Xu AI4CE 156 3 0 10 Dec 2024
Birth and Death of a Rose Chen Geng Yunzhi Zhang Shangzhe Wu Jiajun Wu AI4CE 118 2 0 06 Dec 2024
HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting Jingyu Lin Jiaqi Gu Lubin Fan Bojian Wu Yujing Lou Renjie Chen Ligang Liu Jieping Ye 3DGS 196 1 0 05 Dec 2024
DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction Ben Kaye Tomas Jakab Shangzhe Wu Christian Rupprecht Andrea Vedaldi 3DPC 3DH 215 1 0 05 Dec 2024
Beyond [cls]: Exploring the true potential of Masked Image Modeling representations Marcin Przewiȩźlikowski Randall Balestriero Wojciech Jasiński Marek 'Smieja Bartosz Zieliñski 223 1 0 04 Dec 2024
AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations? Shouwei Ruan Hanqin Liu Yao Huang Xiaoqi Wang Caixin Kang Hang Su Yinpeng Dong Xingxing Wei VGen 218 0 0 04 Dec 2024
Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data Ivan Deandres-Tame Ruben Tolosana Pietro Melzi R. Vera-Rodríguez Minchul Kim ... Bernardo Biesseck Pedro Vidal Luiz Coelho Roger Granada David Menotti 178 2 0 02 Dec 2024
GFreeDet: Exploiting Gaussian Splatting and Foundation Models for Model-free Unseen Object Detection in the BOP Challenge 2024 Xingyu Liu Yingyue Li Chengxi Li Gu Wang Chenyangguang Zhang Ziqin Huang Xiangyang Ji 3DGS 177 2 0 02 Dec 2024
FiffDepth: Feed-forward Transformation of Diffusion-Based Generators for Detailed Depth Estimation Yunpeng Bai Qixing Huang DiffM 172 0 0 01 Dec 2024
EDTformer: An Efficient Decoder Transformer for Visual Place Recognition Tong Jin Feng Lu Shuyu Hu Chun Yuan Yunpeng Liu ViT 175 0 0 01 Dec 2024
TAROT: Targeted Data Selection via Optimal Transport Lan Feng Fan Nie Yuejiang Liu Alexandre Alahi OT 212 1 0 30 Nov 2024
T-3DGS: Removing Transient Objects for 3D Scene Reconstruction Vadim Pryadilshchikov Alexander Markin Artem Komarichev Ruslan Rakhimov Peter Wonka Evgeny Burnaev 3DGS 195 4 0 29 Nov 2024
Explaining the Impact of Training on Vision Models via Activation Clustering Ahcène Boubekki Samuel G. Fadel Sebastian Mair 284 0 0 29 Nov 2024
TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition Yilong Wang Zilin Gao Qilong Wang Zhaofeng Chen P. Li Q. Hu 182 1 0 28 Nov 2024