Title
OMNI-DC: Highly Robust Depth Completion with Multiresolution Depth Integration Yiming Zuo Willow Yang Zeyu Ma Jia Deng MDE 148 2 0 28 Nov 2024
Any-Resolution AI-Generated Image Detection by Spectral Learning Dimitrios Karageorgiou Symeon Papadopoulos I. Kompatsiaris Efstratios Gavves 176 1 0 28 Nov 2024
G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation Tianxing Chen Yao Mu Zhixuan Liang Z. Chen Shijia Peng ... Mingkun Xu R. Hu Han Zhang Xuelong Li Ping Luo AI4CE 206 10 0 27 Nov 2024
CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos Xinhao Liu Jiajian Li Yichen Jiang Niranjan Sujay Zhiyong Yang Juexiao Zhang John Abanes Jing Zhang Chen Feng 188 4 0 26 Nov 2024
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation Chanyoung Kim Dayun Ju Woojung Han Ming-Hsuan Yang Seong Jae Hwang VLM VOS 272 1 0 26 Nov 2024
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE Yongwei Chen Yushi Lan Shangchen Zhou Tengfei Wang Xingang Pan 251 6 0 25 Nov 2024
VideoOrion: Tokenizing Object Dynamics in Videos Yicheng Feng Yijiang Li Wanpeng Zhang Sipeng Zheng Zongqing Lu Sipeng Zheng Zongqing Lu 169 2 0 25 Nov 2024
UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image Xingyu Liu Gu Wang Ruida Zhang Chenyangguang Zhang F. Tombari Xiangyang Ji 496 3 0 25 Nov 2024
PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation Ziyao Zeng Jingcheng Ni Daniel Wang Patrick Rim Younjoon Chung Fengyu Yang Byung-Woo Hong A. Wong DiffM MDE 287 2 0 24 Nov 2024
$$\textit{Revelio}$: Interpreting and leveraging semantic information in diffusion models$ $\textit{Revelio}$ : Interpreting and leveraging semantic information in diffusion models Dahye Kim Xavier Thomas Deepti Ghadiyaram 143 4 0 23 Nov 2024
RankByGene: Gene-Guided Histopathology Representation Learning Through Cross-Modal Ranking Consistency Wentao Huang Meilong Xu Xiaoling Hu Shahira Abousamra Aniruddha Ganguly ... Prateek Prasanna Tahsin M. Kurc Joel H. Saltz Michael L. Miller Chong Chen 136 0 0 22 Nov 2024
NexusSplats: Efficient 3D Gaussian Splatting in the Wild Yuzhou Tang Dejun Xu Yongjie Hou Zhenzhong Wang Min Jiang 3DGS 205 2 0 21 Nov 2024
MGHF: Multi-Granular High-Frequency Perceptual Loss for Image Super-Resolution S. Sami Md Golam Moula Mehedi Hasan J. Dawson Nasser M. Nasrabadi Nasser M. Nasrabadi Raghuveer Rao DiffM 126 2 0 20 Nov 2024
From Holistic to Localized: Local Enhanced Adapters for Efficient Visual Instruction Fine-Tuning Pengkun Jiao Bin Zhu Jingjing Chen Chong-Wah Ngo Yu-Gang Jiang VLM OffRL 164 0 0 19 Nov 2024
Automatic dataset shift identification to support safe deployment of medical imaging AI Mélanie Roschewitz Raghav Mehta Charles Jones Ben Glocker OOD 87 2 0 12 Nov 2024
CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM Jingwei Xu Chenyu Wang Zibo Zhao Wen Liu Yi-An Ma Shenghua Gao 141 18 0 07 Nov 2024
Grouped Discrete Representation for Object-Centric Learning Rongzhen Zhao V. Wang Arno Solin Joni Pajarinen BDL OCL 84 1 0 04 Nov 2024
CLIP-RT: Learning Language-Conditioned Robotic Policies from Natural Language Supervision Gi-Cheon Kang Junghyun Kim Kyuhwan Shim Jun Ki Lee Byoung-Tak Zhang LM&Ro 315 2 1 01 Nov 2024
FRoundation: Are Foundation Models Ready for Face Recognition? Tahar Chettaoui Naser Damer Fadi Boutros CVBM 94 8 0 31 Oct 2024
ResiDual Transformer Alignment with Spectral Decomposition Lorenzo Basile Valentino Maiorca Luca Bortolussi Emanuele Rodolà Francesco Locatello 150 2 0 31 Oct 2024
FAIR-TAT: Improving Model Fairness Using Targeted Adversarial Training Tejaswini Medi Steffen Jung Margret Keuper AAML 94 3 0 30 Oct 2024
Revisiting MAE pre-training for 3D medical image segmentation Tassilo Wald Constantin Ulrich Stanislav Lukyanenko Andrei Goncharov Alberto Paderno Leander Maerkisch Paul F. Jäger Paul F. Jäger Klaus Maier-Hein 127 2 0 30 Oct 2024
OFER: Occluded Face Expression Reconstruction Pratheba Selvaraju Victoria Fernandez-Abrevaya Timo Bolkart Rick Akkerman Tianyu Ding F. Amjadi Ilya Zharkov DiffM CVBM 3DH 100 0 0 29 Oct 2024
AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery Yuxun Qu Yongqiang Tang Chenyang Zhang Wensheng Zhang 179 0 0 29 Oct 2024
Do Vendi Scores Converge with Finite Samples? Truncated Vendi Score for Finite-Sample Convergence Guarantees Azim Ospanov Farzan Farnia 210 3 0 29 Oct 2024
Multi-modal AI for comprehensive breast cancer prognostication Jan Witowski Ken Zeng Joseph Cappadona Jailan Elayoubi Elena Diana Chiru ... Adam Brufsky Francisco J. Esteva Lajos Pusztai Yann LeCun Krzysztof J. Geras 25 1 0 28 Oct 2024
On-Robot Reinforcement Learning with Goal-Contrastive Rewards Ondrej Biza Thomas Weng Lingfeng Sun Karl Schmeckpeper Tarik Kelestemur Yecheng Jason Ma Robert Platt Jan-Willem van de Meent Lawson L. S. Wong OffRL 147 0 0 25 Oct 2024
MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision Ruicheng Wang Sicheng Xu Cassie Dai Jianfeng Xiang Yu Deng Xin Tong Jiaolong Yang TPM 3DH MDE 190 39 0 24 Oct 2024
X-MOBILITY: End-To-End Generalizable Navigation via World Modeling Wei Liu Huihua Zhao Chenran Li Joydeep Biswas Billy Okal Pulkit Goyal Yan Chang Soha Pouya 73 4 0 23 Oct 2024
Evaluating the Effectiveness of Attack-Agnostic Features for Morphing Attack Detection Laurent Colbois S´ebastien Marcel AAML 88 0 0 22 Oct 2024
Frontiers in Intelligent Colonoscopy Ge-Peng Ji Jingyi Liu Peng Xu Nick Barnes Fahad Shahbaz Khan Salman Khan Deng-Ping Fan 125 5 0 22 Oct 2024
TIPS: Text-Image Pretraining with Spatial awareness Kevis-Kokitsi Maninis Kaifeng Chen Soham Ghosh Arjun Karpur Koert Chen ... Jan Dlabal Dan Gnanapragasam Mojtaba Seyedhosseini Howard Zhou Andre Araujo VLM 129 3 0 21 Oct 2024
Triplane Grasping: Efficient 6-DoF Grasping with Single RGB Images Yiming Li Hanchi Ren Yue Yang Jingjing Deng Xianghua Xie 116 0 0 21 Oct 2024
SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects Jiayi Liu Denys Iliash Angel X. Chang Manolis Savva Ali Mahdavi-Amiri 163 13 0 21 Oct 2024
Layout-your-3D: Controllable and Precise 3D Generation with 2D Blueprint Junwei Zhou Xueting Li Lu Qi Ming-Hsuan Yang DiffM 109 4 0 20 Oct 2024
A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends Junjun Jiang Zengyuan Zuo Gang Wu Kui Jiang Xianming Liu 113 17 0 19 Oct 2024
LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes Juliette Marrie Romain Menegaux Michael Arbel Diane Larlus Julien Mairal 3DGS 112 3 0 18 Oct 2024
A Survey on Computational Solutions for Reconstructing Complete Objects by Reassembling Their Fractured Parts Jiaxin Lu Yongqing Liang Huijun Han Jiacheng Hua Junfeng Jiang Xin Li Qixing Huang 3DV 137 3 0 18 Oct 2024
Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning Yuxiang Lu Shengcao Cao Yu-Xiong Wang 124 1 0 18 Oct 2024
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models Donghao Zhou Jiancheng Huang J. Bai Jiaze Wang Hao Chen Guangyong Chen Xiaowei Hu Pheng Ann Heng 146 5 0 17 Oct 2024
Composing Novel Classes: A Concept-Driven Approach to Generalized Category Discovery Chuyu Zhang Peiyan Gu Xueyang Yu Xuming He 266 0 0 17 Oct 2024
DepthSplat: Connecting Gaussian Splatting and Depth Haofei Xu Songyou Peng Fangjinhua Wang Hermann Blum Dániel Baráth Andreas Geiger Marc Pollefeys 3DGS MDE 119 39 0 17 Oct 2024
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective Yongxin Zhu Bing Li Hang Zhang Xin Li Linli Xu Lidong Bing DiffM 116 9 0 16 Oct 2024
In-Context Learning Enables Robot Action Prediction in LLMs Yida Yin Zekai Wang Yuvan Sharma Dantong Niu Trevor Darrell Roei Herzig LM&Ro 278 4 0 16 Oct 2024
Browsing without Third-Party Cookies: What Do You See? Maxwell Lin Shihan Lin Helen Wu Karen Wang Xiaowei Yang BDL 268 14 0 14 Oct 2024
big.LITTLE Vision Transformer for Efficient Visual Recognition He Guo Yulong Wang Zixuan Ye Jifeng Dai Yuwen Xiong ViT 92 0 0 14 Oct 2024
Exploring Semi-Supervised Learning for Online Mapping Adam Lilja Erik Wallin Junsheng Fu Lars Hammarstrand SSL 137 1 0 14 Oct 2024
Locality Alignment Improves Vision-Language Models Ian Covert Tony Sun James Zou Tatsunori Hashimoto VLM 265 7 0 14 Oct 2024
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation Qingwen Bu Hongyang Li Li Chen Jisong Cai Jia Zeng Heming Cui Maoqing Yao Yu Qiao 150 11 0 10 Oct 2024
3D Vision-Language Gaussian Splatting Qucheng Peng Benjamin Planche Zhongpai Gao Meng Zheng Anwesa Choudhuri Terrence Chen Chong Chen Ziyan Wu 3DGS 84 6 0 10 Oct 2024