v1v2v3 (latest)

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

10 March 2022

ArXiv (abs)PDF HTML Github (945★)

Papers citing "PETR: Position Embedding Transformation for Multi-View 3D Object Detection"

50 / 388 papers shown

Title
LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering Simon Boeder Fabian Gigengack Benjamin Risse 114 7 0 24 Jul 2024
Progressive Query Refinement Framework for Bird's-Eye-View Semantic Segmentation from Surrounding Images Dooseop Choi Jungyu Kang Taeghyun An Kyounghwan Ahn Kyoung‐Wook Min 85 0 0 24 Jul 2024
DVPE: Divided View Position Embedding for Multi-View 3D Object Detection Jiasen Wang Zhenglin Li Ke Sun Xianyuan Liu Yang Zhou 105 0 0 24 Jul 2024
Learning High-resolution Vector Representation from Multi-Camera Images for 3D Object Detection Zhili Chen Shuangjie Xu Maosheng Ye Zian Qian Xiaoyi Zou Dit-Yan Yeung Qifeng Chen 122 1 0 22 Jul 2024
RoadPainter: Points Are Ideal Navigators for Topology transformER Zhongxing Ma Shuang Liang Yongkun Wen Weixin Lu Guowei Wan ViT 3DPC 99 7 0 22 Jul 2024
Explore the LiDAR-Camera Dynamic Adjustment Fusion for 3D Object Detection Yiran Yang Xu Gao Tong Wang Xin Hao Yifeng Shi Xiao Tan Xiaoqing Ye Jingdong Wang 3DPC 81 0 0 22 Jul 2024
RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception Chunliang Li Wencheng Han Junbo Yin Sanyuan Zhao Jianbing Shen 92 4 0 15 Jul 2024
LabelDistill: Label-guided Cross-modal Knowledge Distillation for Camera-based 3D Object Detection Sanmin Kim Youngseok Kim Sihwan Hwang H. Jeong Dongsuk Kum 113 5 0 14 Jul 2024
FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection Zheng Jiang Jinqing Zhang Yanan Zhang Qingjie Liu Zhenghui Hu Baohui Wang Yunhong Wang 92 3 0 14 Jul 2024
IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception Shaohong Wang Lu Bin Xinyu Xiao Zhiyu Xiang Hangguan Shan Eryun Liu ViT 113 3 0 13 Jul 2024
3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance Xiaoxu Xu Yitian Yuan Jinlong Li Qiudan Zhang Zequn Jie Lin Ma Hao Tang N. Sebe Xu Wang 97 2 0 13 Jul 2024
Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images Chuanrui Zhang Yonggen Ling Minglei Lu Minghan Qin Haoqian Wang 3DV 94 3 0 09 Jul 2024
Occupancy as Set of Points Yiang Shi Tianheng Cheng Qian Zhang Wenyu Liu Xinggang Wang 3DPC 126 16 0 04 Jul 2024
Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking Mingzhe Guo Zhipeng Zhang Liping Jing Yuan He Ke Wang Heng Fan 115 1 0 03 Jul 2024
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion Bohan Li Jiajun Deng Wenyao Zhang Zhujin Liang Dalong Du Xin Jin Wenjun Zeng 122 12 0 02 Jul 2024
CountFormer: Multi-View Crowd Counting Transformer Hong Mo Xiong Zhang Jianchao Tan Cheng Yang Qiong Gu Bo Hang Wenqi Ren 108 2 0 02 Jul 2024
RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulaiton Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma LM&Ro 125 12 0 27 Jun 2024
BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection Yang Song Lin Wang 113 3 0 27 Jun 2024
MDHA: Multi-Scale Deformable Transformer with Hybrid Anchors for Multi-View 3D Object Detection Michelle Adeline Junn Yong Loo Vishnu Monn Baskaran 127 1 0 25 Jun 2024
BEVSpread: Spread Voxel Pooling for Bird's-Eye-View Representation in Vision-based Roadside 3D Object Detection Wenjie Wang Yehao Lu Guangcong Zheng Shuigen Zhan Xiaoqing Ye Zichang Tan Jingdong Wang Gaoang Wang Xi Li 124 10 0 13 Jun 2024
Enhancing End-to-End Autonomous Driving with Latent World Model Yingyan Li Lue Fan Jiawei He Yuqi Wang Yuntao Chen Zhaoxiang Zhang Tieniu Tan 180 22 0 12 Jun 2024
DualAD: Disentangling the Dynamic and Static World for End-to-End Driving Simon Doll Niklas Hanselmann Lukas Schneider Richard Schulz Marius Cordts Markus Enzweiler Hendrik P. A. Lensch 82 8 0 10 Jun 2024
Enhancing 3D Lane Detection and Topology Reasoning with 2D Lane Priors Han Li Zehao Huang Zitian Wang Wenge Rong Naiyan Wang Si Liu ViT 3DPC 81 8 0 05 Jun 2024
SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation Wenchao Sun Xuewu Lin Yining Shi Chuang Zhang Haoran Wu Sifa Zheng 134 41 0 30 May 2024
Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? Yifan Bai Dongming Wu Yingfei Liu Fan Jia Weixin Mao ... Yucheng Zhao Jianbing Shen Xing Wei Tiancai Wang Xiangyu Zhang MLLM 94 12 0 28 May 2024
Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving Shaoyuan Xie Lingdong Kong Wenwei Zhang Jiawei Ren Liang Pan Kai-xiang Chen Ziwei Liu AAML 100 12 0 27 May 2024
MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method Pan Liao Feng Yang Di Wu Liu Bo 56 1 0 24 May 2024
TopoLogic: An Interpretable Pipeline for Lane Topology Reasoning on Driving Scenes Yanping Fu Wenbin Liao Xinyuan Liu Hang Xu Yike Ma Feng Dai Yucheng Zhang LRM 104 11 0 23 May 2024
Advancing Spiking Neural Networks for Sequential Modeling with Central Pattern Generators Changze Lv Dongqi Han Yansen Wang Xiaoqing Zheng Xuanjing Huang Dongsheng Li 57 1 0 23 May 2024
Context and Geometry Aware Voxel Transformer for Semantic Scene Completion Zhuopu Yu Runmin Zhang Jiacheng Ying Junchen Yu Xiaohai Hu Lun Luo Siyuan Cao Hui-Liang Shen ViT 119 15 0 22 May 2024
Multi-View Attentive Contextualization for Multi-View 3D Object Detection Xianpeng Liu Ce Zheng Ming Qian Nan Xue Chong Chen Zhebin Zhang Chen Li Tianfu Wu 129 3 0 20 May 2024
Accurate Training Data for Occupancy Map Prediction in Automated Driving Using Evidence Theory Jonas Kälble Sascha Wirges Maxim Tatarchenko Eddy Ilg 3DPC 71 2 0 17 May 2024
DuoSpaceNet: Leveraging Both Bird's-Eye-View and Perspective View Representations for 3D Object Detection Zhe Huang Yizhe Zhao Hao Xiao Chenyan Wu Lingting Ge 3DPC 168 1 0 17 May 2024
RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception Xiaosu Zhu Hualian Sheng Sijia Cai Bing Deng Shaopeng Yang Qiao Liang Ken Chen Lianli Gao Jingkuan Song Jieping Ye 111 4 0 16 May 2024
TP3M: Transformer-based Pseudo 3D Image Matching with Reference Liming Han Zhaoxiang Liu Shiguo Lian 65 1 0 14 May 2024
MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders Xue-Qiu Jiang Sheng Jin Xiaoqin Zhang Ling Shao Shijian Lu MDE 86 7 0 13 May 2024
ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers Jinke Li Xiao He Chonghua Zhou Xiaoqiang Cheng Yang Wen Dan Zhang ViT 86 16 0 07 May 2024
OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez LRM 111 48 0 02 May 2024
CLFT: Camera-LiDAR Fusion Transformer for Semantic Segmentation in Autonomous Driving Junyi Gu M. Bellone Tomás Pivonka Raivo Sell ViT 133 7 0 27 Apr 2024
OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks Sophia Sirko-Galouchenko Alexandre Boulch Spyros Gidaris Andrei Bursuc Antonín Vobecký Patrick Pérez Renaud Marlet 3DPC 105 7 0 22 Apr 2024
SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving Diankun Zhang Guoan Wang Runwen Zhu Jianbo Zhao Xiwu Chen ... Haotian Yao Chi Zhang Xiaojun Liu Xiaoguang Di Bin Li 91 19 0 10 Apr 2024
Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting Hao Lu Jiaqi Tang Xinli Xu Xu Cao Yunpeng Zhang Guoqing Wang Dalong Du Hao Chen Ying-Cong Chen 86 3 0 10 Apr 2024
MOSE: Boosting Vision-based Roadside 3D Object Detection with Scene Cues Xiahan Chen Mingjian Chen Sanli Tang Yi Niu Jiang Zhu 63 2 0 08 Apr 2024
Better Monocular 3D Detectors with LiDAR from the Past Yurong You Cheng Perng Phoo Carlos Diaz-Ruiz Katie Z Luo Wei-Lun Chao Mark E. Campbell B. Hariharan Kilian Q. Weinberger 3DPC 135 1 0 08 Apr 2024
MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object Detection Hou-I Liu Christine Wu Jen-Hao Cheng Wenhao Chai Shian-Yun Wang ... Lei Li Hong-Han Shuai Wen-Huang Cheng Hong-Han Shuai Wen-Huang Cheng 203 2 0 07 Apr 2024
HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras Zhongyu Xia ZhiWei Lin Xinhao Wang Yongtao Wang Yun Xing Shengxiang Qi Nan Dong Ming-Hsuan Yang 87 5 0 03 Apr 2024
Improving Bird's Eye View Semantic Segmentation by Task Decomposition Tianhao Zhao Yongcan Chen Yu-Huan Wu Tianyang Liu Bo Du ... Shi Qiu Hongda Yang Guozhen Li Yi Yang Yutian Lin 102 6 0 02 Apr 2024
MGMap: Mask-Guided Learning for Online Vectorized HD Map Construction Xiaolu Liu Song Wang Wentong Li Ruizi Yang Junbo Chen Jianke Zhu 123 20 0 01 Apr 2024
SeaBird: Segmentation in Bird's View with Dice Loss Improves Monocular 3D Detection of Large Objects Abhinav Kumar Yuliang Guo Xinyu Huang Liu Ren Xiaoming Liu 3DPC 142 9 0 29 Mar 2024
SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control Binyuan Huang Yuqing Wen Yucheng Zhao Yaosi Hu Yingfei Liu ... Tiancai Wang Chi Zhang Chang Wen Chen Zhenzhong Chen Xiangyu Zhang 88 16 0 28 Mar 2024