Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding

14 April 2023

Yu-Qi Yang

Yu-Xiao Guo

Jiangfeng Xiong

Yang Liu

Hao Pan

Peng-Shuai Wang

Papers citing "Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding"

41 / 41 papers shown

Title
HOTFormerLoc: Hierarchical Octree Transformer for Versatile Lidar Place Recognition Across Ground and Aerial Views Ethan Griffiths Maryam Haghighat Simon Denman Clinton Fookes Milad Ramezani 3DPC 87 0 0 11 Mar 2025
Self-Supervised Scene Flow Estimation with Point-Voxel Fusion and Surface Representation Xuezhi Xiang X. Wang Lei Zhang Denis Ombati Himaloy Himu Xiantong Zhen 3DPC 68 0 0 17 Oct 2024
S2O: Static to Openable Enhancement for Articulated 3D Objects Denys Iliash Hanxiao Jiang Yiming Zhang Manolis Savva Angel X. Chang 73 6 0 27 Sep 2024
Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding Yunze Man Shuhong Zheng Zhipeng Bao M. Hebert Liang-Yan Gui Yu-Xiong Wang 105 19 0 05 Sep 2024
Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning? Runpei Dong Zekun Qi Linfeng Zhang Junbo Zhang Jian‐Yuan Sun Zheng Ge Li Yi Kaisheng Ma ViT 3DPC 60 87 0 16 Dec 2022
EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder Xiaoshui Huang Zhou Huang Shengjia Li Wentao Qu Tong He Yuenan Hou Yifan Zuo Wanli Ouyang 62 11 0 08 Dec 2022
Meta Architecture for Point Cloud Analysis Haojia Lin Xiawu Zheng Lijiang Li Chia-Wen Lin Sha Wang Yan Wang Yonghong Tian Rongrong Ji 3DPC 53 46 0 26 Nov 2022
Point Transformer V2: Grouped Vector Attention and Partition-based Pooling Xiaoyang Wu Yixing Lao Li Jiang Xihui Liu Hengshuang Zhao 3DPC ViT 85 384 0 11 Oct 2022
CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training Tianyu Huang Bowen Dong Yunhan Yang Xiaoshui Huang Rynson W. H. Lau Wanli Ouyang W. Zuo VLM 3DPC CLIP 95 147 0 03 Oct 2022
Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training Renrui Zhang Ziyu Guo Rongyao Fang Bingyan Zhao Dong Wang Yu Qiao Hongsheng Li Peng Gao 3DPC 223 253 0 28 May 2022
Surface Representation for Point Clouds Haoxi Ran Jun Liu Chengjie Wang 3DPC 73 157 0 11 May 2022
VSA: Learning Varied-Size Window Attention in Vision Transformers Qiming Zhang Yufei Xu Jing Zhang Dacheng Tao 50 53 0 18 Apr 2022
MaxViT: Multi-Axis Vision Transformer Zhengzhong Tu Hossein Talebi Han Zhang Feng Yang P. Milanfar A. Bovik Yinxiao Li ViT 102 657 0 04 Apr 2022
SepViT: Separable Vision Transformer Wei Li Xing Wang Xin Xia Jie Wu Jiashi Li Xuefeng Xiao Min Zheng Shiping Wen ViT 55 41 0 29 Mar 2022
Stratified Transformer for 3D Point Cloud Segmentation Xin Lai Jianhui Liu Li Jiang Liwei Wang Hengshuang Zhao Shu Liu Xiaojuan Qi Jiaya Jia 3DPC ViT 86 273 0 28 Mar 2022
Masked Autoencoders for Point Cloud Self-supervised Learning Yatian Pang Wenxiao Wang Francis E. H. Tay Wen Liu Yonghong Tian Liuliang Yuan 3DPC ViT 75 466 0 13 Mar 2022
Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention Sitong Wu Tianyi Wu Hao Hao Tan G. Guo ViT 46 70 0 28 Dec 2021
FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection D. Rukhovich Anna Vorontsova Anton Konushin 3DPC 92 115 0 01 Dec 2021
Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling Xumin Yu Lulu Tang Yongming Rao Tiejun Huang Jie Zhou Jiwen Lu 3DPC 111 669 0 29 Nov 2021
PointMixer: MLP-Mixer for Point Cloud Understanding Jaesung Choe Chunghyun Park François Rameau Jaesik Park In So Kweon 3DPC 79 100 0 22 Nov 2021
Swin Transformer V2: Scaling Up Capacity and Resolution Ze Liu Han Hu Yutong Lin Zhuliang Yao Zhenda Xie ... Yue Cao Zheng Zhang Li Dong Furu Wei B. Guo ViT 203 1,801 0 18 Nov 2021
ARKitScenes: A Diverse Real-World Dataset For 3D Indoor Scene Understanding Using Mobile RGB-D Data Gilad Baruch Zhuoyuan Chen Afshin Dehghan Tal Dimry Yuri Feigin ... Thomas Gebauer Brandon Joffe Daniel Kurz Arik Schwartz Elad Shulman 3DV 3DPC 80 199 0 17 Nov 2021
Attention Mechanisms in Computer Vision: A Survey Meng-Hao Guo Tianhan Xu Jiangjiang Liu Zheng-Ning Liu Peng-Tao Jiang Tai-Jiang Mu Song-Hai Zhang Ralph Robert Martin Ming-Ming Cheng Shimin Hu 98 1,676 0 15 Nov 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 422 7,705 0 11 Nov 2021
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection Yongming Rao Benlin Liu Yi Wei Jiwen Lu Cho-Jui Hsieh Jie Zhou 3DPC 77 50 0 17 Aug 2021
Rethinking and Improving Relative Position Encoding for Vision Transformer Kan Wu Houwen Peng Minghao Chen Jianlong Fu Hongyang Chao ViT 83 335 0 29 Jul 2021
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows Xiaoyi Dong Jianmin Bao Dongdong Chen Weiming Zhang Nenghai Yu Lu Yuan Dong Chen B. Guo ViT 132 976 0 01 Jul 2021
Focal Self-attention for Local-Global Interactions in Vision Transformers Jianwei Yang Chunyuan Li Pengchuan Zhang Xiyang Dai Bin Xiao Lu Yuan Jianfeng Gao ViT 68 433 0 01 Jul 2021
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao Li Dong Songhao Piao Furu Wei ViT 206 2,807 0 15 Jun 2021
Self-Supervised Pretraining of 3D Features on any Point-Cloud Zaiwei Zhang Rohit Girdhar Armand Joulin Ishan Misra 3DPC 151 270 0 07 Jan 2021
Transformers in Vision: A Survey Salman Khan Muzammal Naseer Munawar Hayat Syed Waqas Zamir Fahad Shahbaz Khan M. Shah ViT 267 2,491 0 04 Jan 2021
A Survey on Visual Transformer Kai Han Yunhe Wang Hanting Chen Xinghao Chen Jianyuan Guo ... Chunjing Xu Yixing Xu Zhaohui Yang Yiman Zhang Dacheng Tao ViT 146 2,202 0 23 Dec 2020
PCT: Point cloud transformer Meng-Hao Guo Junxiong Cai Zheng-Ning Liu Tai-Jiang Mu Ralph Robert Martin Shimin Hu ViT 3DPC 127 1,608 0 17 Dec 2020
Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts Ji Hou Benjamin Graham Matthias Nießner Saining Xie 3DPC 79 269 0 16 Dec 2020
Point Transformer Nico Engel Vasileios Belagiannis Klaus C. J. Dietmayer 3DPC 161 1,982 0 02 Nov 2020
Unsupervised 3D Learning for Shape Analysis via Multiresolution Instance Discrimination Peng-Shuai Wang Yuqi Yang Qian-Fang Zou Zhirong Wu Yang Liu Xin Tong 3DPC 50 52 0 03 Aug 2020
Generative Sparse Detection Networks for 3D Single-shot Object Detection JunYoung Gwak Chris Choy Silvio Savarese 3DPC 50 101 0 22 Jun 2020
Structured3D: A Large Photo-realistic Dataset for Structured 3D Modeling Jia Zheng Junfei Zhang Jing Li Rui Tang Shenghua Gao Zihan Zhou 3DV 76 269 0 01 Aug 2019
KPConv: Flexible and Deformable Convolution for Point Clouds Hugues Thomas C. Qi Jean-Emmanuel Deschaud B. Marcotegui F. Goulette Leonidas Guibas 3DPC 149 2,527 0 18 Apr 2019
4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks Chris Choy JunYoung Gwak Silvio Savarese 3DPC 139 1,780 0 18 Apr 2019
ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes Angela Dai Angel X. Chang Manolis Savva Maciej Halber Thomas Funkhouser Matthias Nießner 3DPC 3DV 356 4,039 0 14 Feb 2017