Depth Anything V2

13 June 2024

Papers citing "Depth Anything V2"

50 / 76 papers shown

Title
Plenodium: UnderWater 3D Scene Reconstruction with Plenoptic Medium Representation Changguanng Wu Jiangxin Dong Chengjian Li J. Tang 34 0 0 27 May 2025
From Single Images to Motion Policies via Video-Generation Environment Representations Weiming Zhi Ziyong Ma Tianyi Zhang Matthew Johnson-Roberson VGen 3DV 51 0 0 25 May 2025
3D Visual Illusion Depth Estimation Chengtang Yao Zhidan Liu Jiaxi Zeng Lidong Yu Yuwei Wu Yunde Jia MDE 59 0 0 19 May 2025
SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning Yang Liu Ming Ma Xiaomin Yu Pengxiang Ding Han Zhao Mingyang Sun Siteng Huang Donglin Wang LRM 89 0 0 18 May 2025
JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers Kwon Byung-Ki Qi Dai Lee Hyoseok Chong Luo Tae-Hyun Oh 87 0 0 01 May 2025
IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos Yuan Li Ziqian Bai Feitong Tan Zhaopeng Cui S. Fanello Yinda Zhang DiffM VGen 86 0 0 27 Apr 2025
The Fourth Monocular Depth Estimation Challenge Anton Obukhov Matteo Poggi Fabio Tosi Ripudaman Singh Arora Jaime Spencer ... Tuan-Anh Yang Minh-Quang Nguyen T. Tran Albert Luginov Muhammad Shahzad MDE 318 0 0 24 Apr 2025
VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation Mingxia Zhan Li Zhang Xiaomeng Chu Beibei Wang MDE 82 0 0 21 Apr 2025
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting Jiaxin Huang Sheng Miao BangBnag Yang Yuewen Ma Yiyi Liao VGen MDE 105 0 0 15 Apr 2025
Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control Nvidia Hassan Abu Alhaija Jose M. Alvarez Maciej Bala Tiffany Cai ... Yuchong Ye Xiaodong Yang Boxin Wang Fangyin Wei Yu Zeng VGen 116 5 0 18 Mar 2025
MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors Fanqi Pu Yifan Wang Jiru Deng Wenming Yang MDE ViT 110 2 0 13 Mar 2025
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation Hyeonho Jeong Suhyeon Lee Jong Chul Ye VGen 383 0 0 12 Mar 2025
Seeing A 3D World in A Grain of Sand Yufan Zhang Yu Ji Yu Guo Jinwei Ye 3DV 63 0 0 01 Mar 2025
Back to the Future Cyclopean Stereo: a human perception approach combining deep and geometric constraints Sherlon Almeida da Silva Davi Geiger Luiz Velho Moacir Antonelli Ponti 52 0 0 28 Feb 2025
pySLAM: An Open-Source, Modular, and Extensible Framework for SLAM Luigi Freda GP VLM MDE 73 1 0 20 Feb 2025
GP-GS: Gaussian Processes for Enhanced Gaussian Splatting Zhihao Guo Jingxuan Su Shenglin Wang Jinlong Fan Jing Zhang Wei Zhou Hadi Amirpour Yunlong Zhao L. Han Peng Wang 3DGS 136 0 0 04 Feb 2025
DiffDoctor: Diagnosing Image Diffusion Models Before Treating Yiyang Wang Xi Chen Xiaogang Xu S. Ji Yongxu Liu Yujun Shen Hengshuang Zhao DiffM 77 0 0 21 Jan 2025
Survey on Monocular Metric Depth Estimation Jiuling Zhang VLM 126 0 0 21 Jan 2025
Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation Ziyang Xie Zhizheng Liu Zhenghao Peng Wayne Wu Bolei Zhou VGen 101 4 0 12 Jan 2025
DehazeGS: Seeing Through Fog with 3D Gaussian Splatting Jinze Yu Yijiao Wang Zhengda Lu Jianwei Guo Yong Li Hongxing Qin Xiaopeng Zhang 67 1 0 07 Jan 2025
AKiRa: Augmentation Kit on Rays for optical video generation Xi Wang Robin Courant Marc Christie Vicky Kalogeiton VGen 130 3 0 31 Dec 2024
DPBridge: Latent Diffusion Bridge for Dense Prediction Haorui Ji Taojun Lin Hongdong Li DiffM 148 1 0 29 Dec 2024
NFL-BA: Improving Endoscopic SLAM with Near-Field Light Bundle Adjustment Andrea Dunn Beltran Daniel Rho Marc Niethammer Roni Sengupta Roni Sengupta 120 2 0 17 Dec 2024
ViPOcc: Leveraging Visual Priors from Vision Foundation Models for Single-View 3D Occupancy Prediction Yi Feng Yu Han Xijing Zhang Tanghui Li Yanting Zhang Rui Fan 179 3 0 15 Dec 2024
Olympus: A Universal Task Router for Computer Vision Tasks Yuanze Lin Yunsheng Li Dongdong Chen Weijian Xu Ronald Clark Philip Torr VLM ObjD 399 0 0 12 Dec 2024
Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction Dongxu Wei Zhiqi Li Peidong Liu 130 1 0 09 Dec 2024
DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction Ben Kaye Tomas Jakab Shangzhe Wu Christian Rupprecht Andrea Vedaldi 3DPC 3DH 126 1 0 05 Dec 2024
Adaptive Blind All-in-One Image Restoration David Serrano-Lozano Luis Herranz Shaolin Su Javier Vázquez-Corral VLM 160 0 0 27 Nov 2024
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis Hyojun Go Byeongjun Park Jiho Jang Jin-Young Kim Soonwoo Kwon Changick Kim 3DGS 131 2 0 25 Nov 2024
PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation Ziyao Zeng Jingcheng Ni Daniel Wang Patrick Rim Younjoon Chung Fengyu Yang Byung-Woo Hong A. Wong DiffM MDE 147 2 0 24 Nov 2024
Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution Huan Zheng Wencheng Han Jianbing Shen 70 1 0 05 Nov 2024
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes Yang Liu Chuanchen Luo Zhongkai Mao Junran Peng Zhaoxiang Zhang 3DGS 82 8 0 01 Nov 2024
MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision Ruicheng Wang Sicheng Xu Cassie Dai Jianfeng Xiang Yu Deng Xin Tong Jiaolong Yang TPM 3DH MDE 89 32 0 24 Oct 2024
DepthSplat: Connecting Gaussian Splatting and Depth Haofei Xu Songyou Peng Fangjinhua Wang Hermann Blum Dániel Baráth Andreas Geiger Marc Pollefeys 3DGS MDE 88 32 0 17 Oct 2024
Order-aware Interactive Segmentation Bin Wang Anwesa Choudhuri Meng Zheng Zhongpai Gao Benjamin Planche Andong Deng Qin Liu Terrence Chen Ulas Bagci Ziyan Wu VLM 350 1 0 16 Oct 2024
A Simple Approach to Unifying Diffusion-based Conditional Generation Xirui Li Charles Herrmann Kelvin C.K. Chan Yinxiao Li Deqing Sun Chao Ma Ming-Hsuan Yang DiffM VLM 59 1 0 15 Oct 2024
Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free Ziyue Li Dinesh Manocha MoE 81 17 0 14 Oct 2024
Browsing without Third-Party Cookies: What Do You See? Maxwell Lin Shihan Lin Helen Wu Karen Wang Xiaowei Yang BDL 131 10 0 14 Oct 2024
Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting Matthew Strong Boshu Lei Aiden Swann Wen Jiang Kostas Daniilidis Monroe Kennedy III 3DGS 56 3 0 07 Oct 2024
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion Junyi Zhang Charles Herrmann Junhwa Hur Varun Jampani Trevor Darrell Forrester Cole Deqing Sun Ming-Hsuan Yang VGen 120 75 0 04 Oct 2024
M2P2: A Multi-Modal Passive Perception Dataset for Off-Road Mobility in Extreme Low-Light Conditions A. Datar Anuj Pokhrel Mohammad Nazeri Madhan B. Rao Chenhui Pan ... Andre Harrison Maggie B. Wigness Philip R. Osteen Jinwei Ye Xuesu Xiao 58 0 0 01 Oct 2024
Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction Jing He Haodong Li Wei Yin Yixun Liang Leheng Li Kaiqiang Zhou Hongbo Zhang Bingbing Liu Ying-Cong Chen DiffM VLM 76 45 0 26 Sep 2024
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions Weifeng Lin Xinyu Wei Renrui Zhang Le Zhuo Shitian Zhao ... Junlin Xie Junlin Xie Yu Qiao Peng Gao Hongsheng Li MLLM DiffM 100 13 0 23 Sep 2024
Reactive Collision Avoidance for Safe Agile Navigation Alessandro Saviolo Niko Picello Rishabh Verma Rishabh Verma Giuseppe Loianno 62 0 0 18 Sep 2024
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think Gonzalo Martin Garcia Karim Abou Zeid Christian Schmidt Daan de Geus Alexander Hermans Bastian Leibe 69 27 0 17 Sep 2024
Towards Real-Time Generation of Delay-Compensated Video Feeds for Outdoor Mobile Robot Teleoperation Neeloy Chakraborty Yixiao Fang Andre Schreiber Tianchen Ji Zhe Huang Aganze Mihigo Cassidy Wall Abdulrahman Almana Katherine Driggs-Campbell 73 0 0 16 Sep 2024
EndoOmni: Zero-Shot Cross-Dataset Depth Estimation in Endoscopy by Robust Self-Learning from Noisy Labels Qingyao Tian Zhen Chen Huai Liao Xinyan Huang Lujie Li Sebastien Ourselin Hongbin Liu 143 2 0 09 Sep 2024
IGEV++: Iterative Multi-range Geometry Encoding Volumes for Stereo Matching Gangwei Xu Xianqi Wang Zhaoxing Zhang Junda Cheng Chunyuan Liao Xin Yang 3DV 92 12 0 01 Sep 2024
Gaussian Splatting Lucas-Kanade Liuyue Xie Joel Julin Koichiro Niinuma László A. Jeni 3DGS 56 2 0 16 Jul 2024
Sparse-DeRF: Deblurred Neural Radiance Fields from Sparse View Dogyoon Lee Donghyeong Kim Jungho Lee Minhyeok Lee Seunghoon Lee Sangyoun Lee 95 0 0 09 Jul 2024