Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression

1 September 2024

Xiaoqing Ye

Jingdong Wang

Xiang Bai

ViT

ArXiv (abs)PDF HTML Github (42★)

Papers citing "Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression"

23 / 23 papers shown

Title
BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection Zhenxin Li Shiyi Lan Jose M. Alvarez Zuxuan Wu 81 19 0 04 Dec 2023
Sparse4D v3: Advancing End-to-End 3D Detection and Tracking Xuewu Lin Zi-Hui Pei Tianwei Lin Lichao Huang Zhizhong Su 95 38 0 20 Nov 2023
CAPE: Camera View Position Embedding for Multi-View 3D Object Detection Kaixin Xiong Shi Gong Xiaoqing Ye Xiao Tan Ji Wan Errui Ding Jingdong Wang Xiang Bai 3DPC 65 36 0 17 Mar 2023
Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline Yangguang Li Bin Huang Zeren Chen Yufeng Cui Feng Liang ... Fenggang Liu Enze Xie Lu Sheng Wanli Ouyang Jing Shao 86 43 0 29 Jan 2023
Beyond Attentive Tokens: Incorporating Token Importance and Diversity for Efficient Vision Transformers Sifan Long Z. Zhao Jimin Pi Sheng-sheng Wang Jingdong Wang 61 38 0 21 Nov 2022
Token Merging: Your ViT But Faster Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman MoMe 108 458 0 17 Oct 2022
PolarFormer: Multi-camera 3D Object Detection with Polar Transformer Yan Jiang Li Zhang Zhenwei Miao Xiatian Zhu Jin Gao Weiming Hu Yulin Jiang ViT 70 171 0 30 Jun 2022
BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection Yinhao Li Zheng Ge Guanyi Yu Jinrong Yang Zengran Wang Yukang Shi Jian‐Yuan Sun Zeming Li MDE 82 615 0 21 Jun 2022
PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images Yingfei Liu Junjie Yan Fan Jia Shuailin Li Q. Gao Tiancai Wang Xinming Zhang Jian Sun 3DPC 107 352 0 02 Jun 2022
BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers Zhiqi Li Wenhai Wang Hongyang Li Enze Xie Chonghao Sima Tong Lu Qiao Yu Jifeng Dai 125 1,303 0 31 Mar 2022
BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection Junjie Huang Guan Huang 100 345 0 31 Mar 2022
PETR: Position Embedding Transformation for Multi-View 3D Object Detection Yingfei Liu Tiancai Wang Xinming Zhang Jian Sun 3DPC 115 547 0 10 Mar 2022
BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View Junjie Huang Guan Huang Zheng Zhu Yun Ye Dalong Du 3DPC 100 704 0 22 Dec 2021
AdaViT: Adaptive Tokens for Efficient Vision Transformer Hongxu Yin Arash Vahdat J. Álvarez Arun Mallya Jan Kautz Pavlo Molchanov ViT 107 340 0 14 Dec 2021
Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity Byungseok Roh Jaewoong Shin Wuhyun Shin Saehoon Kim ViT 52 145 0 29 Nov 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 467 7,814 0 11 Nov 2021
DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries Yue Wang Vitor Campagnolo Guizilini Tianyuan Zhang Yilun Wang Hang Zhao Justin Solomon 3DPC ViT 97 718 0 13 Oct 2021
DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification Yongming Rao Wenliang Zhao Benlin Liu Jiwen Lu Jie Zhou Cho-Jui Hsieh ViT 90 699 0 03 Jun 2021
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers Enze Xie Wenhai Wang Zhiding Yu Anima Anandkumar J. Álvarez Ping Luo ViT 303 5,051 0 31 May 2021
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 664 41,369 0 22 Oct 2020
Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D Jonah Philion Sanja Fidler 94 1,051 0 13 Aug 2020
Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection Benjin Zhu Zhengkai Jiang Xiangxin Zhou Zeming Li Gang Yu 3DPC 209 493 0 26 Aug 2019
nuScenes: A multimodal dataset for autonomous driving Holger Caesar Varun Bankiti Alex H. Lang Sourabh Vora Venice Erin Liong Qiang Xu Anush Krishnan Yuxin Pan G. Baldan Oscar Beijbom 3DPC 298 5,770 0 26 Mar 2019