Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

19 January 2024

Papers citing "Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data"

50 / 141 papers shown

Title
SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models Shun Taguchi Hideki Deguchi Takumi Hamazaki Hiroyuki Sakai ReLM LRM 47 0 0 08 May 2025
Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective Songsong Duan Xi Yang Nannan Wang Xinbo Gao 55 0 0 07 May 2025
LiftFeat: 3D Geometry-Aware Local Feature Matching Yepeng Liu Wenpeng Lai Zhou Zhao Yuxuan Xiong Jinchi Zhu Jun Cheng Yongchao Xu 39 0 0 06 May 2025
VGLD: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery Bojin Wu Jing Chen MDE 46 0 0 05 May 2025
Sim2Real in endoscopy segmentation with a novel structure aware image translation Clara Tomasini L. Riazuelo Ana C. Murillo MedIm 36 0 0 05 May 2025
RayZer: A Self-supervised Large View Synthesis Model Hanwen Jiang Hao Tan Peng Wang Haian Jin Yue Zhao ... Kai Zhang Fujun Luan Kalyan Sunkavalli Qixing Huang Georgios Pavlakos 65 0 0 01 May 2025
SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models Wufei Ma Luoxin Ye Nessa McWeeney Celso M de Melo A. Yuille Jieneng Chen LRM 65 1 0 01 May 2025
A Survey of Interactive Generative Video Jiwen Yu Yiran Qin Haoxuan Che Quande Liu X. Wang Pengfei Wan Di Zhang Kun Gai Hao Chen Xihui Liu VGen 63 0 0 30 Apr 2025
Depth as Points: Center Point-based Depth Estimation Zhiheng Tu Xinjian Huang Y. He Ruiyang Zhou Bo Du Weitao Wu 3DPC 49 0 0 26 Apr 2025
Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation Shivam Duggal Yushi Hu Oscar Michel Aniruddha Kembhavi William T. Freeman Noah A. Smith Ranjay Krishna Antonio Torralba Ali Farhadi Wei-Chiu Ma EGVM ELM 77 0 0 25 Apr 2025
Depth3DLane: Monocular 3D Lane Detection via Depth Prior Distillation Dongxin Lyu Han Huang Cheng Tan Zimu Li MDE 70 0 0 25 Apr 2025
VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation Mingxia Zhan Li Zhang Xiaomeng Chu Beibei Wang MDE 62 0 0 21 Apr 2025
Generative Semantic Communications: Principles and Practices Xiaojun Yuan Haoming Ma Yinuo Huang Zhoufan Hua Yong Zuo Z. Ding AI4CE 25 0 0 21 Apr 2025
MonoTher-Depth: Enhancing Thermal Depth Estimation via Confidence-Aware Distillation Xingxing Zuo Nikhil Ranganathan Connor T. Lee Georgia Gkioxari Soon-Jo Chung VLM 58 1 0 21 Apr 2025
Seurat: From Moving Points to Depth Seokju Cho Jiahui Huang S. Kim Joon-Young Lee 3DPC MDE 34 0 0 20 Apr 2025
PRISM: A Unified Framework for Photorealistic Reconstruction and Intrinsic Scene Modeling Alara Dirik Tuanfeng Y. Wang Duygu Ceylan Stefanos Zafeiriou Anna Frühstück DiffM 47 0 0 19 Apr 2025
DeepWheel: Generating a 3D Synthetic Wheel Dataset for Design and Performance Evaluation Soyoung Yoo Namwoo Kang 32 0 0 15 Apr 2025
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting Jiaxin Huang Sheng Miao BangBnag Yang Yuewen Ma Yiyi Liao VGen MDE 33 0 0 15 Apr 2025
Lumina-OmniLV: A Unified Multimodal Framework for General Low-Level Vision Yuandong Pu Le Zhuo Kaiwen Zhu Liangbin Xie Wenlong Zhang Xiangyu Chen Peng Gao Yu Qiao Chao Dong Yihao Liu MLLM 66 1 0 07 Apr 2025
Stereo-LiDAR Fusion by Semi-Global Matching With Discrete Disparity-Matching Cost and Semidensification Y. Yao Ryoichi Ishikawa Takeshi Oishi 3DV 32 0 0 07 Apr 2025
CityGS-X: A Scalable Architecture for Efficient and Geometrically Accurate Large-Scale Scene Reconstruction Yuanyuan Gao Hao Li Jiaqi Chen Zhengyu Zou Zhihang Zhong Dingwen Zhang Xiao-Fu Sun Junwei Han 3DGS 55 0 0 29 Mar 2025
Segment Any Motion in Videos Nan Huang Wenzhao Zheng Chenfeng Xu Kurt Keutzer Shanghang Zhang Angjoo Kanazawa Qianqian Wang VOS 53 0 0 28 Mar 2025
The Power of Context: How Multimodality Improves Image Super-Resolution Kangfu Mei Hossein Talebi Mojtaba Ardakani Vishal M. Patel P. Milanfar M. Delbracio DiffM 82 1 0 18 Mar 2025
RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment Chao Wang Giulio Franzese A. Finamore Pietro Michiardi 64 0 0 18 Mar 2025
Vision-Language Embodiment for Monocular Depth Estimation Jinchang Zhang Guoyu Lu VLM MDE 50 0 0 18 Mar 2025
MOSAIC: Generating Consistent, Privacy-Preserving Scenes from Multiple Depth Views in Multi-Room Environments Zhixuan Liu H. Zhu R. Chen Jonathan M Francis Soonmin Hwang J. J. Zhang Jean Oh VGen 169 0 0 18 Mar 2025
FlowTok: Flowing Seamlessly Across Text and Image Tokens Ju He Qihang Yu Qihao Liu Liang-Chieh Chen 68 0 0 13 Mar 2025
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation Hanzhi Chen Boyang Sun Anran Zhang Marc Pollefeys Stefan Leutenegger LM&Ro 72 0 0 10 Mar 2025
Patch-Depth Fusion: Dichotomous Image Segmentation via Fine-Grained Patch Strategy and Depth Integrity-Prior Xianjie Liu Keren Fu Qijun Zhao MDE 56 0 0 08 Mar 2025
DuCos: Duality Constrained Depth Super-Resolution via Foundation Model Zhiqiang Yan Zhengxue Wang Haoye Dong Jun Yu Li Jian Yang Gim Hee Lee 67 0 0 06 Mar 2025
MIDAS: Modeling Ground-Truth Distributions with Dark Knowledge for Domain Generalized Stereo Matching Peng-Tao Xu Zhiyu Xiang Jingyun Fu Tianyu Pu Hanzhi Zhong Eryun Liu OOD 67 0 0 06 Mar 2025
Is Pre-training Applicable to the Decoder for Dense Prediction? Chao Ning Wanshui Gan Weihao Xuan Naoto Yokoya 48 0 0 05 Mar 2025
Morpheus: Text-Driven 3D Gaussian Splat Shape and Color Stylization Jamie Wynn Z. Qureshi Jakub Powierza Jamie Watson Mohamed Sayed 3DGS DiffM 76 0 0 03 Mar 2025
You Only Click Once: Single Point Weakly Supervised 3D Instance Segmentation for Autonomous Driving Guangfeng Jiang Jun Liu Yongxuan Lv Y. Wu Xianfei Li Wenlong Liao Tao He Pai Peng 3DPC 55 0 0 27 Feb 2025
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image Kaixin Yao Longwen Zhang Xinhao Yan Yan Zeng Qixuan Zhang Wei Yang Lan Xu Jiayuan Gu Jingyi Yu 29 3 0 18 Feb 2025
L4P: Low-Level 4D Vision Perception Unified Abhishek Badki Hang Su Bowen Wen Orazio Gallo VLM 86 1 0 18 Feb 2025
Range and Bird's Eye View Fused Cross-Modal Visual Place Recognition Jianyi Peng Fan Lu Bin Li Yuan Huang Sanqing Qu Guang-Sheng Chen 3DPC 87 0 0 17 Feb 2025
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views Shangzhan Zhang Jianyuan Wang Yinghao Xu Nan Xue Christian Rupprecht Xiaowei Zhou Yujun Shen Gordon Wetzstein 120 7 0 17 Feb 2025
Matrix3D: Large Photogrammetry Model All-in-One Yuanxun Lu Jingyang Zhang Tian Fang Jean-Daniel Nahmias Yanghai Tsin Long Quan Xun Cao Yao Yao Shiwei Li 119 4 0 11 Feb 2025
Fully Exploiting Vision Foundation Model's Profound Prior Knowledge for Generalizable RGB-Depth Driving Scene Parsing Sicen Guo Tianyou Wen Chuang-Wei Liu Qijun Chen Rui Fan 57 0 0 10 Feb 2025
Enhancing Ground-to-Aerial Image Matching for Visual Misinformation Detection Using Semantic Segmentation Emanuele Mule Matteo Pannacci Ali Ghasemi Goudarzi Francesco Pro Lorenzo Papa Luca Maiano Irene Amerini 81 0 0 10 Feb 2025
Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior Lee Hyoseok Kyeong Seon Kim Kwon Byung-Ki Tae-Hyun Oh MDE 137 0 0 10 Feb 2025
Revisiting Gradient-based Uncertainty for Monocular Depth Estimation Julia Hornauer Amir El-Ghoussani Vasileios Belagiannis UQCV 55 0 0 09 Feb 2025
LeAP: Consistent multi-domain 3D labeling using Foundation Models Simon Gebraad Andras Palffy Holger Caesar 128 1 0 06 Feb 2025
PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models? Mennatullah Siam VLM 81 1 0 06 Feb 2025
Controllable Satellite-to-Street-View Synthesis with Precise Pose Alignment and Zero-Shot Environmental Control Xianghui Ze Zhenbo Song Qiwei Wang Jianfeng Lu Yujiao Shi 48 0 0 05 Feb 2025
Rethinking Encoder-Decoder Flow Through Shared Structures Frederik Laboyrie M. K. Yucel Albert Saà-Garriga AI4CE 45 0 0 24 Jan 2025
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass Jianing Yang Alexander Sax Kevin J Liang Mikael Henaff Hao Tang Ang Cao J. Chai Franziska Meier Matt Feiszli 3DGS 73 16 0 23 Jan 2025
Enhancing Monocular Depth Estimation with Multi-Source Auxiliary Tasks Alessio Quercia Erenus Yildiz Zhuo Cao Kai Krajsek Abigail Morrison Ira Assent Hanno Scharr 56 0 0 22 Jan 2025
DiffDoctor: Diagnosing Image Diffusion Models Before Treating Yiyang Wang Xi Chen Xiaogang Xu S. Ji Y. Liu Yujun Shen Hengshuang Zhao DiffM 49 0 0 21 Jan 2025