Title
Entropic Time Schedulers for Generative Diffusion Models Dejan Stancevic Luca Ambrogioni L. Ambrogioni DiffM OOD 83 0 0 18 Apr 2025
Perception Encoder: The best visual embeddings are not at the output of the network Daniel Bolya Po-Yao (Bernie) Huang Peize Sun Jang Hyun Cho Andrea Madotto ... Shiyu Dong Nikhila Ravi Daniel Li Piotr Dollár Christoph Feichtenhofer ObjD VOS 329 9 0 17 Apr 2025
SOPHY: Learning to Generate Simulation-Ready Objects with Physical Materials Junyi Cao Evangelos Kalogerakis AI4CE 67 0 0 17 Apr 2025
Stronger, Steadier & Superior: Geometric Consistency in Depth VFM Forges Domain Generalized Semantic Segmentation Siyu Chen Ting Han Changshe Zhang Xin Luo Meiliu Wu Guorong Cai Jinhe Su MDE 114 1 0 17 Apr 2025
Can Masked Autoencoders Also Listen to Birds? Lukas Rauch Ilyass Moummad René Heinrich Alexis Joly Bernhard Sick Christoph Scholz 151 0 0 17 Apr 2025
CM3AE: A Unified RGB Frame and Event-Voxel/-Frame Pre-training Framework Wentao Wu Xinyu Wang Chenglong Li Bo Jiang Jin Tang Bin Luo Qi Liu 100 0 0 17 Apr 2025
Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image Tao Wen Jiadong Wang Yuxiao Chen Shugong Xu Chi Zhang Xuelong Li MDE 119 0 0 16 Apr 2025
Search is All You Need for Few-shot Anomaly Detection Qishan Wang Jia Guo Shuyong Gao Hongru Wang Li Xiong J. Hu Hanqi Guo Wenqiang Zhang 160 0 0 16 Apr 2025
CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image Jingshun Huang Haitao Lin Tianyu Wang Yanwei Fu Xiangyang Xue Yinlin Zhu 3DPC 98 0 0 15 Apr 2025
Elucidating the Design Space of Multimodal Protein Language Models Cheng-Yen Hsieh Xinze Wang Daiheng Zhang Dongyu Xue Fei Ye Shujian Huang Zaixiang Zheng Quanquan Gu 93 1 0 15 Apr 2025
ESCT3D: Efficient and Selectively Controllable Text-Driven 3D Content Generation with Gaussian Splatting Huiqi Wu Jianbo Mei Yingjie Huang Yining Xu Jingjiao You Yilong Liu Li Yao 3DGS 68 0 0 14 Apr 2025
Focus on Local: Finding Reliable Discriminative Regions for Visual Place Recognition Changwei Wang Shunpeng Chen Yukun Song Rongtao Xu Zherui Zhang ... Shide Du Zhiwei Xu Longxiang Gao Li Guo Shibiao Xu 75 2 0 14 Apr 2025
MIEB: Massive Image Embedding Benchmark Chenghao Xiao Isaac Chung Imene Kerboua Jamie Stirling Xin Zhang Márton Kardos Roman Solomatin Noura Al Moubayed Kenneth Enevoldsen Niklas Muennighoff VLM 139 2 0 14 Apr 2025
SCFlow2: Plug-and-Play Object Pose Refiner with Shape-Constraint Scene Flow Qingyuan Wang Rui Song Jiaojiao Li Kerui Cheng David Ferstl Yinlin Hu 3DPC 77 0 0 12 Apr 2025
Evolved Hierarchical Masking for Self-Supervised Learning Zhanzhou Feng Shiliang Zhang 141 0 0 12 Apr 2025
MASH: Masked Anchored SpHerical Distances for 3D Shape Representation and Generation Changhao Li Yu Xin Xiaowei Zhou Ariel Shamir Hao Zhang Ligang Liu R. Hu 127 0 0 12 Apr 2025
ID-Booth: Identity-consistent Face Generation with Diffusion Models Darian Tomašević Fadi Boutros Chenhao Lin Naser Damer Vitomir Štruc Peter Peer DiffM 135 1 0 10 Apr 2025
RadZero: Similarity-Based Cross-Attention for Explainable Vision-Language Alignment in Radiology with Zero-Shot Multi-Task Capability Jonggwon Park Soobum Kim Byungmu Yoon Kyoyun Choi MedIm 105 0 0 10 Apr 2025
Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation Thomas Kerdreux A. Tuel Quentin Febvre A. Mouche Bertrand Chapron 130 0 0 09 Apr 2025
Domain Generalization through Attenuation of Domain-Specific Information Reiji Saito Kazuhiro Hotta 65 0 0 09 Apr 2025
Analyzing the Impact of Low-Rank Adaptation for Cross-Domain Few-Shot Object Detection in Aerial Images Hicham Talaoubrid Anissa Mokraoui Ismail Ben Ayed Axel Prouvost Sonimith Hang Monit Korn Rémi Harvey ObjD 104 1 0 08 Apr 2025
TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis Tri Ton Ji Woo Hong Chang D. Yoo VGen 67 0 0 08 Apr 2025
Falcon: Fractional Alternating Cut with Overcoming Minima in Unsupervised Segmentation Xiao Zhang Xiangyu Han Xiwen Lai Yao Sun Pei Zhang Konrad Kording 60 0 0 08 Apr 2025
Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation Xiaoxing Hu Ziyang Gong Yansen Wang Yuru Jia Gen Luo Xue Yang 473 1 0 08 Apr 2025
To Match or Not to Match: Revisiting Image Matching for Reliable Visual Place Recognition Davide Sferrazza Gabriele Berton Gabriele Trivigno Carlo Masone 80 0 0 08 Apr 2025
Hyperbolic Category Discovery Yuanpei Liu Zhenqi He Kai Han 115 2 0 08 Apr 2025
OmniSVG: A Unified Scalable Vector Graphics Generation Model Yiying Yang Wei Cheng Sijin Chen Xianfang Zeng Jiaxu Zhang Liao Wang Gang Yu Xingjun Ma Xingjun Ma Yu Jiang VLM 125 6 0 08 Apr 2025
EffOWT: Transfer Visual Language Models to Open-World Tracking Efficiently and Effectively Bingyang Wang Kaer Huang Bin Li Yiqiang Yan Lulu Zhang Huchuan Lu You He VLM 154 0 0 07 Apr 2025
S^4M: Boosting Semi-Supervised Instance Segmentation with SAM Heeji Yoon Heeseong Shin Eunbeen Hong Hyunwook Choi Hansang Cho Daun Jeong Seungryong Kim 59 0 0 07 Apr 2025
TestDG: Test-time Domain Generalization for Continual Test-time Adaptation Sohyun Lee N. Kim Juwon Kang Seong Joon Oh Suha Kwak OOD TTA 195 0 0 07 Apr 2025
Variational Self-Supervised Learning Mehmet Can Yavuz Berrin Yanikoglu SSL 176 0 0 06 Apr 2025
A Survey of Pathology Foundation Model: Progress and Future Directions Conghao Xiong Hao Chen Joseph J. Y. Sung LM&MA AI4CE 173 1 0 05 Apr 2025
Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization Yikai Wang Guangce Liu Xinzhou Wang Zilong Chen Jiafang Li Xin Liang F. Sun J. Zhu 3DGS VGen 117 0 0 05 Apr 2025
Real-is-Sim: Bridging the Sim-to-Real Gap with a Dynamic Digital Twin Jad Abou-Chakra Lingfeng Sun Krishan Rana Brandon B. May Karl Schmeckpeper Niko Suenderhauf M. Minniti Laura Herlant OffRL 452 1 0 04 Apr 2025
Pairwise Optimal Transports for Training All-to-All Flow-Based Condition Transfer Model Kotaro Ikeda Masanori Koyama Jinzhe Zhang Kohei Hayashi Kenji Fukumizu OT 566 1 0 04 Apr 2025
REJEPA: A Novel Joint-Embedding Predictive Architecture for Efficient Remote Sensing Image Retrieval Shabnam Choudhury Yash Salunkhe Sarthak Mehrotra Biplab Banerjee 80 0 0 04 Apr 2025
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation Van Nguyen Nguyen Stephen Tyree Andrew Guo Mederic Fourmy Anas Gouda ... Stan Birchfield Jiri Matas Yann Labbé M. Sundermeyer Tomás Hodan 3DPC 156 4 0 03 Apr 2025
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models Mateusz Pach Shyamgopal Karthik Quentin Bouniot Serge Belongie Zeynep Akata VLM 121 3 0 03 Apr 2025
Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis Zixuan Wang Duo Peng Feng Chen Yue Yang Yinjie Lei DiffM 136 0 0 02 Apr 2025
ProtoGCD: Unified and Unbiased Prototype Learning for Generalized Category Discovery Shijie Ma Fei Zhu Xu-Yao Zhang Cheng-Lin Liu 94 3 0 02 Apr 2025
UniViTAR: Unified Vision Transformer with Native Resolution Limeng Qiao Yiyang Gan Bairui Wang Jie Qin Shuang Xu Siqi Yang Lin Ma 173 0 0 02 Apr 2025
All Patches Matter, More Patches Better: Enhance AI-Generated Image Detection via Panoptic Patch Learning Zheng Yang Ruoxin Chen Zhiyuan Yan Ke-Yue Zhang Xinghe Fu Shuang Wu Xiujun Shu Taiping Yao Junchi Yan Shouhong Ding 102 1 0 02 Apr 2025
Anomaly Detection for Hybrid Butterfly Subspecies via Probability Filtering Bo-Kai Ruan Yi-Zeng Fang Hong-Han Shuai Juinn-Dar Huang 60 0 0 02 Apr 2025
GECKO: Gigapixel Vision-Concept Contrastive Pretraining in Histopathology S. Kapse Pushpak Pati Srikar Yellapragada Srijan Das Rajarsi R. Gupta Joel H. Saltz Dimitris Samaras Prateek Prasanna VLM 107 1 0 01 Apr 2025
Spingarn's Method and Progressive Decoupling Beyond Elicitable Monotonicity B. Evens P. Latafat Panagiotis Patrinos 229 1 0 01 Apr 2025
Distilling Multi-view Diffusion Models into 3D Generators Hao Qin Luyuan Chen Ming Kong Mengxu Lu Qiang Zhu 3DGS 169 1 0 01 Apr 2025
Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation Junyu Xie Tengda Han Max Bain Arsha Nagrani Eshika Khandelwal Gül Varol Weidi Xie Andrew Zisserman DiffM VGen 115 0 0 01 Apr 2025
Coca-Splat: Collaborative Optimization for Camera Parameters and 3D Gaussians Jiamin Wu Hongyang Li Xiaoke Jiang Yuan Yao Lei Zhang 3DGS 152 0 0 01 Apr 2025
CBIL: Collective Behavior Imitation Learning for Fish from Real Videos Yifan Wu Zhiyang Dou Yuko Ishiwaka Shun Ogawa Yuke Lou Wenping Wang Lingjie Liu Taku Komura 208 3 0 31 Mar 2025
VideoGen-Eval: Agent-based System for Video Generation Evaluation Yuhang Yang Ke Fan Siyang Song Hongxiang Li Ailing Zeng FeiLin Han Wei-dong Zhai Wen Liu Yang Cao Zheng-jun Zha EGVM VGen 123 1 0 30 Mar 2025