v1v2v3v4 (latest)

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

7 March 2022

Hao Zhang

Feng Li

Shilong Liu

Lei Zhang

Hang Su

Jun Zhu

L. Ni

H. Shum

ViT

ArXiv (abs)PDF HTML Github (2506★)

Papers citing "DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection"

50 / 742 papers shown

Title
Dual DETRs for Multi-Label Temporal Action Detection Yuhan Zhu Guozhen Zhang Jing Tan Gangshan Wu Limin Wang 117 12 0 31 Mar 2024
Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights Moein Heidari Reza Azad Sina Ghorbani Kolahi René Arimond Leon Niggemeier ... Afshin Bozorgpour Ehsan Khodapanah Aghdam Amirhossein Kazerouni Ilker Hacihaliloglu Dorit Merhof 97 7 0 28 Mar 2024
Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation Zhongliang Zhou Jielu Zhang Zihan Guan Mengxuan Hu Ni Lao Lan Mu Sheng Li Gengchen Mai VLM 151 17 0 28 Mar 2024
Illicit object detection in X-ray images using Vision Transformers Jorgen Cani Ioannis Mademlis Adamantia Anna Rebolledo Chrysochoou Georgios Th. Papadopoulos ViT 68 2 0 27 Mar 2024
AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation Qingping Sun Yanjun Wang Ailing Zeng Wanqi Yin Chen Wei ... Haiyi Mei Chi Sing Leung Ziwei Liu Lei Yang Zhongang Cai 3DH 95 20 0 26 Mar 2024
DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding Xiaoxuan Yu Hao Wang Weiming Li Qiang Wang Soonyong Cho Younghun Sung 3DPC ViT 86 0 0 25 Mar 2024
Data-Efficient 3D Visual Grounding via Order-Aware Referring Tung-Yu Wu Sheng-Yu Huang Yu-Chiang Frank Wang 143 0 0 25 Mar 2024
Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement Xiuquan Hou Meiqin Liu Senlin Zhang Ping Wei Badong Chen 93 30 0 24 Mar 2024
Segment Anything Model for Road Network Graph Extraction Congrui Hetang Haoru Xue Cindy X. Le Tianwei Yue Wenping Wang Yihui He 141 17 0 24 Mar 2024
T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy Qing Jiang Feng Li Zhaoyang Zeng Tianhe Ren Shilong Liu Lei Zhang VLM 114 43 0 21 Mar 2024
RoDLA: Benchmarking the Robustness of Document Layout Analysis Models Yufan Chen Jiaming Zhang Kunyu Peng Junwei Zheng Ruiping Liu Philip Torr Rainer Stiefelhagen OOD 73 7 0 21 Mar 2024
Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection Tim Salzmann Markus Ryll Alex Bewley Matthias Minderer 94 4 0 21 Mar 2024
Bounding Box Stability against Feature Dropout Reflects Detector Generalization across Environments Yang Yang Wenhai Wang Zhe Chen Jifeng Dai Liang Zheng 92 3 0 20 Mar 2024
Rotary Position Embedding for Vision Transformer Byeongho Heo Song Park Dongyoon Han Sangdoo Yun 134 52 0 20 Mar 2024
TAPTR: Tracking Any Point with Transformers as Detection Hongyang Li Hao Zhang Shilong Liu Zhaoyang Zeng Tianhe Ren Feng Li Lei Zhang 86 20 0 19 Mar 2024
VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation Hao Wang Jiayou Qin Ashish Bastola Xiwen Chen John Suchanek Zihao Gong Abolfazl Razi 54 18 0 19 Mar 2024
Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition Jielin Qiu William Jongwon Han Winfred Wang Zhengyuan Yang Linjie Li Jianfeng Wang Christos Faloutsos Lei Li Lijuan Wang VLM 108 2 0 19 Mar 2024
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding Chaolei Tan Jian-Huang Lai Wei-Shi Zheng Jianfang Hu AI4TS 128 5 0 18 Mar 2024
SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras Yingqi Tang Zhaotie Meng Guoliang Chen Erkang Cheng 3DPC 57 1 0 15 Mar 2024
Animate Your Motion: Turning Still Images into Dynamic Videos Mingxiao Li Bo Wan Marie-Francine Moens Tinne Tuytelaars VGen DiffM 91 7 0 15 Mar 2024
GiT: Towards Generalist Vision Transformer through Universal Language Interface Haiyang Wang Hao Tang Li Jiang Shaoshuai Shi Muhammad Ferjad Naeem Hongsheng Li Bernt Schiele Liwei Wang VLM 101 13 0 14 Mar 2024
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring Yufei Zhan Yousong Zhu Hongyin Zhao Fan Yang Ming Tang Jinqiao Wang ObjD 98 14 0 14 Mar 2024
Annotation Free Semantic Segmentation with Vision Foundation Models Soroush Seifi Daniel Olmeda Reino Fabien Despinoy Rahaf Aljundi VLM 103 1 0 14 Mar 2024
GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing Jing Wu Jiawang Bian Xinghui Li Guangrun Wang Ian D Reid Philip Torr V. Prisacariu 3DGS 98 42 0 13 Mar 2024
Historical Astronomical Diagrams Decomposition in Geometric Primitives Syrine Kalleli Scott Trigg Ségolene Albouy Mathieu Husson Mathieu Aubry 71 2 0 13 Mar 2024
Low-Cost and Real-Time Industrial Human Action Recognitions Based on Large-Scale Foundation Models Wensheng Liang Ruiyan Zhuang Xianwei Shi Shuai Li Zhicheng Wang Xiaoguang Ma CVBM AI4CE 57 2 0 13 Mar 2024
ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions Chunlong Xia Xinliang Wang Feng Lv Xin Hao Yifeng Shi ViT 89 56 0 12 Mar 2024
Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception Philipp Wolters Johannes Gilg Torben Teepe Fabian Herzog Anouar Laouichi Martin Hofmann Gerhard Rigoll MDE 138 15 0 12 Mar 2024
Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head Tiancheng Zhao Peng Liu Xuan He Lu Zhang Kyusong Lee ObjD 70 8 0 11 Mar 2024
FrameQuant: Flexible Low-Bit Quantization for Transformers Harshavardhan Adepu Zhanpeng Zeng Li Zhang Vikas Singh MQ 60 8 0 10 Mar 2024
Scene Graph Aided Radiology Report Generation Jun Wang Lixing Zhu A. Bhalerao Yulan He MedIm 81 1 0 08 Mar 2024
VLM-PL: Advanced Pseudo Labeling Approach for Class Incremental Object Detection via Vision-Language Model Junsu Kim Yunhoe Ku Jihyeon Kim Junuk Cha Seungryul Baek ObjD VLM 101 14 0 08 Mar 2024
AO-DETR: Anti-Overlapping DETR for X-Ray Prohibited Items Detection Mingyuan Li Tong Jia Hao Wang Bowen Ma Shuyang Lin Da Cai Dongyue Chen ViT 124 21 0 07 Mar 2024
LORS: Low-rank Residual Structure for Parameter-Efficient Network Stacking Jialin Li Qiang Nie Weifu Fu Yuhuan Lin Guangpin Tao Yong-Jin Liu Chengjie Wang 91 5 0 07 Mar 2024
Continual Segmentation with Disentangled Objectness Learning and Class Recognition Yizheng Gong Siyue Yu Xiaoyang Wang Jimin Xiao CLL 84 6 0 06 Mar 2024
Performance Evaluation of Semi-supervised Learning Frameworks for Multi-Class Weed Detection Jiajia Li Dong Chen Xunyuan Yin Zhao Li 78 11 0 06 Mar 2024
VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing Zhiyuan Chang Mingyang Li Junjie Wang Cheng Li Qing Wang 58 0 0 05 Mar 2024
Enhancing Vision-Language Pre-training with Rich Supervisions Yuan Gao Kunyu Shi Pengkai Zhu Edouard Belval Oren Nuriel Srikar Appalaraju Shabnam Ghadar Vijay Mahadevan Zhuowen Tu Stefano Soatto VLM CLIP 168 12 0 05 Mar 2024
NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function Abdullah Nazhat Abdullah Tarkan Aydin 79 0 0 04 Mar 2024
xT: Nested Tokenization for Larger Context in Large Images Ritwik Gupta Shufan Li Tyler Lixuan Zhu Jitendra Malik Trevor Darrell K. Mangalam ViT 76 6 0 04 Mar 2024
Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection Jieren Deng Haojian Zhang Kun Ding Jianhua Hu Xingxuan Zhang Yunkuan Wang VLM ObjD 179 7 0 04 Mar 2024
Efficient Action Counting with Dynamic Queries Zishi Li Xiaoxuan Ma Qiuyan Shang Wentao Zhu Hai Ci Yu Qiao Yizhou Wang 74 1 0 03 Mar 2024
Flatten Long-Range Loss Landscapes for Cross-Domain Few-Shot Learning Yixiong Zou Yicong Liu Yiman Hu Yuhua Li Ruixuan Li 86 7 0 01 Mar 2024
DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with Competitive Query Selection and Adaptive Feature Fusion Junjie Guo Chenqiang Gao Fangcen Liu Deyu Meng Xinbo Gao 89 10 0 01 Mar 2024
ProtoP-OD: Explainable Object Detection with Prototypical Parts Pavlos Rath-Manakidis Frederik Strothmann Tobias Glasmachers Laurenz Wiskott ViT 72 1 0 29 Feb 2024
EAN-MapNet: Efficient Vectorized HD Map Construction with Anchor Neighborhoods Huiyuan Xiong Jun Shen Taohong Zhu Yuelong Pan 90 3 0 28 Feb 2024
Leveraging Enhanced Queries of Point Sets for Vectorized Map Construction Zihao Liu Xiaoyu Zhang Guangwei Liu Ji Zhao Ningyi Xu 102 24 0 27 Feb 2024
Deployment Prior Injection for Run-time Calibratable Object Detection Mo Zhou Yiding Yang Haoxiang Li Vishal M. Patel Gang Hua 99 0 0 27 Feb 2024
Diffusion Model-Based Image Editing: A Survey Yi Huang Jiancheng Huang Yifan Liu Mingfu Yan Jiaxi Lv Jianzhuang Liu Wei Xiong He Zhang Liangliang Cao Liangliang Cao EGVM 263 103 0 27 Feb 2024
Multi-Human Mesh Recovery with Transformers Zeyu Wang Zhenzhen Weng Serena Yeung-Levy 3DH 50 1 0 26 Feb 2024