WorDepth: Variational Language Prior for Monocular Depth Estimation

4 April 2024

Papers citing "WorDepth: Variational Language Prior for Monocular Depth Estimation"

21 / 21 papers shown

Title
VGLD: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery Bojin Wu Jing Chen MDE 46 0 0 05 May 2025
VideoGen-Eval: Agent-based System for Video Generation Evaluation Yuhang Yang Ke Fan Shuifa Sun Hongxiang Li Ailing Zeng FeiLin Han Wei-dong Zhai Wei Liu Yang Cao Zheng-jun Zha EGVM VGen 78 0 0 30 Mar 2025
Vision-Language Embodiment for Monocular Depth Estimation Jinchang Zhang Guoyu Lu VLM MDE 50 0 0 18 Mar 2025
GauFRe: Gaussian Deformation Fields for Real-time Dynamic Novel View Synthesis Yiqing Liang Numair Khan Zhengqin Li Thu Nguyen-Phuoc Douglas Lanman James Tompkin Lei Xiao 3DGS 82 46 0 17 Jan 2025
PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation Ziyao Zeng Jingcheng Ni Daniel Wang Patrick Rim Younjoon Chung Fengyu Yang Byung-Woo Hong A. Wong DiffM MDE 108 2 0 24 Nov 2024
RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions Ziyao Zeng Yangchao Wu Hyoungseob Park Daniel Wang Fengyu Yang Stefano Soatto Dong Lao Byung-Woo Hong Alex Wong MDE 20 7 0 03 Oct 2024
Evaluating Modern Approaches in 3D Scene Reconstruction: NeRF vs Gaussian-Based Methods Yiming Zhou Zixuan Zeng Andi Chen Xiaofan Zhou Haowei Ni Shiyao Zhang Panfeng Li Liangxi Liu Mengyao Zheng Xupeng Chen 3DGS 37 17 0 08 Aug 2024
Iterated Learning Improves Compositionality in Large Vision-Language Models Chenhao Zheng Jieyu Zhang Aniruddha Kembhavi Ranjay Krishna VLM CoGe 54 9 0 02 Apr 2024
Test-Time Adaptation for Depth Completion Hyoungseob Park Anjali Gupta Alex Wong TTA VLM 27 13 0 05 Feb 2024
AugUndo: Scaling Up Augmentations for Unsupervised Depth Completion Yangchao Wu Tian Yu Liu Hyoungseob Park Stefano Soatto Dong Lao Alex Wong 40 11 0 15 Oct 2023
Implicit Anatomical Rendering for Medical Image Segmentation with Stochastic Experts Chenyu You Weicheng Dai Yifei Min Lawrence H. Staib James S. Duncan MedIm 67 27 0 06 Apr 2023
Unleashing Text-to-Image Diffusion Models for Visual Perception Wenliang Zhao Yongming Rao Zuyan Liu Benlin Liu Jie Zhou Jiwen Lu ObjD VLM MDE 160 215 0 03 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 270 4,244 0 30 Jan 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 392 4,137 0 28 Jan 2022
PointCLIP: Point Cloud Understanding by CLIP Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li VLM 3DPC 175 435 0 04 Dec 2021
Toward Practical Monocular Indoor Depth Estimation Cho-Ying Wu Jialiang Wang Michael Hall Ulrich Neumann Shuochen Su 3DV MDE 43 62 0 04 Dec 2021
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 192 385 0 06 Nov 2021
Excavating the Potential Capacity of Self-Supervised Monocular Depth Estimation Rui Peng Ronggang Wang Yawen Lai Luyang Tang Yangang Cai MDE 64 72 0 26 Sep 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 330 2,267 0 02 Sep 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 317 5,785 0 29 Apr 2021
Deep Ordinal Regression Network for Monocular Depth Estimation Huan Fu Biwei Huang Chaohui Wang Kayhan Batmanghelich Dacheng Tao MDE 194 1,708 0 06 Jun 2018