Improving 2D Feature Representations by 3D-Aware Fine-Tuning

29 July 2024

Siyu Tang

Papers citing "Improving 2D Feature Representations by 3D-Aware Fine-Tuning"

26 / 26 papers shown

Title
RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment Chao Wang Giulio Franzese A. Finamore Pietro Michiardi 162 0 0 18 Mar 2025
LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes Juliette Marrie Romain Menegaux Michael Arbel Diane Larlus Julien Mairal 3DGS 63 1 0 18 Oct 2024
ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding Guangda Ji Silvan Weder Francis Engelmann Marc Pollefeys Hermann Blum 3DV 100 4 0 17 Oct 2024
OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views Francis Engelmann Fabian Manhardt Michael Niemeyer Keisuke Tateno Marc Pollefeys Federico Tombari VLM 109 32 1 04 Apr 2024
Denoising Vision Transformers Jiawei Yang Katie Z Luo Jie Li Kilian Q. Weinberger Yonglong Tian Yue Wang DiffM 42 14 0 05 Jan 2024
Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding Jin-Chuan Shi Miao Wang Hao-Bin Duan Shao-Hua Guan 3DGS 76 85 0 30 Nov 2023
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation Saurabh Saxena Charles Herrmann Junhwa Hur Abhishek Kar Mohammad Norouzi Deqing Sun David J. Fleet DiffM 79 79 0 02 Jun 2023
ConceptFusion: Open-set Multimodal 3D Mapping Krishna Murthy Jatavallabhula Ali Kuwajerwala Qiao Gu Mohd. Omama Tao Chen ... Celso Miguel de Melo Madhava Krishna Liam Paull Florian Shkurti Antonio Torralba 55 237 0 14 Feb 2023
Feature-Realistic Neural Fusion for Real-Time, Open Set Scene Understanding Kirill Mazur Edgar Sucar Andrew J. Davison 3DPC AI4CE 110 45 0 06 Oct 2022
Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D Image Representations Vadim Tschernezki Iro Laina Diane Larlus Andrea Vedaldi 214 190 0 07 Sep 2022
Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models Huy Ha Shuran Song LM&Ro VLM 72 103 0 23 Jul 2022
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation Feng Li Hao Zhang Hu-Sheng Xu Siyi Liu Lei Zhang L. Ni H. Shum ISeg 108 377 0 06 Jun 2022
DeiT III: Revenge of the ViT Hugo Touvron Matthieu Cord Hervé Jégou ViT 105 402 0 14 Apr 2022
MultiMAE: Multi-modal Multi-task Masked Autoencoders Roman Bachmann David Mizrahi Andrei Atanov Amir Zamir 101 268 0 04 Apr 2022
Scaling Open-Vocabulary Image Segmentation with Image-Level Labels Golnaz Ghiasi Xiuye Gu Huayu Chen Nayeon Lee VLM 104 377 0 22 Dec 2021
Deep ViT Features as Dense Visual Descriptors Shirzad Amir Yossi Gandelsman Shai Bagon Tali Dekel MDE ViT 75 278 0 10 Dec 2021
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao Li Dong Songhao Piao Furu Wei ViT 184 2,790 0 15 Jun 2021
Vision Transformers for Dense Prediction René Ranftl Alexey Bochkovskiy V. Koltun ViT MDE 117 1,696 0 24 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 731 28,659 0 26 Feb 2021
Unsupervised Learning of Visual Features by Contrasting Cluster Assignments Mathilde Caron Ishan Misra Julien Mairal Priya Goyal Piotr Bojanowski Armand Joulin OCL SSL 189 4,051 0 17 Jun 2020
Bootstrap your own latent: A new approach to self-supervised Learning Jean-Bastien Grill Florian Strub Florent Altché Corentin Tallec Pierre Harvey Richemond ... M. G. Azar Bilal Piot Koray Kavukcuoglu Rémi Munos Michal Valko SSL 297 6,718 0 13 Jun 2020
Momentum Contrast for Unsupervised Visual Representation Learning Kaiming He Haoqi Fan Yuxin Wu Saining Xie Ross B. Girshick SSL 128 12,007 0 13 Nov 2019
ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes Angela Dai Angel X. Chang Manolis Savva Maciej Halber Thomas Funkhouser Matthias Nießner 3DPC 3DV 247 4,001 0 14 Feb 2017
Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles M. Noroozi Paolo Favaro SSL 145 2,973 0 30 Mar 2016
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 1.2K 39,383 0 01 Sep 2014
Representation Learning: A Review and New Perspectives Yoshua Bengio Aaron Courville Pascal Vincent OOD SSL 196 12,384 0 24 Jun 2012