v1v2v3v4 (latest)

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

7 March 2022

Hao Zhang

Feng Li

Shilong Liu

Lei Zhang

Hang Su

Jun Zhu

L. Ni

H. Shum

ViT

ArXiv (abs)PDF HTML Github (2506★)

Papers citing "DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection"

50 / 742 papers shown

Title
Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection Zhiqiang Yang Q. Guan Keer Zhao Jianmin Yang Xinli Xu Haixia Long Ying Tang 96 19 0 05 Jul 2024
Lift, Splat, Map: Lifting Foundation Masks for Label-Free Semantic Scene Completion Arthur Zhang Rainier Heijne Joydeep Biswas 70 1 0 03 Jul 2024
$Explainable vertebral fracture analysis with uncertainty estimation using differentiable rule-based classification$ Explainable vertebral fracture analysis with uncertainty estimation using differentiable rule-based classification Victor Wåhlstrand Skärström L. Johansson Jennifer Alvén M. Lorentzon Ida Häggström 68 1 0 03 Jul 2024
SymPoint Revolutionized: Boosting Panoptic Symbol Spotting with Layer Feature Enhancement Wenlong Liu Tianyu Yang Qizhi Yu Lei Zhang 95 3 0 02 Jul 2024
Parametric Primitive Analysis of CAD Sketches with Vision Transformer Xiaogang Wang Liang Wang Hongyu Wu Guoqiang Xiao Kai Xu 67 2 0 29 Jun 2024
From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models Mehar Bhatia Sahithya Ravi Aditya Chinchure EunJeong Hwang Vered Shwartz VLM 122 5 0 28 Jun 2024
Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding Yue Fan Lei Ding Ching-Chen Kuo Shan Jiang Yang Zhao Xinze Guan Jie Yang Yi Zhang Xin Eric Wang 88 11 0 27 Jun 2024
Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO F. Mumuni A. Mumuni VLM 144 0 0 27 Jun 2024
MATE: Meet At The Embedding -- Connecting Images with Long Texts Young Kyun Jang Junmo Kang Yong Jae Lee Donghyun Kim VLM 95 8 0 26 Jun 2024
MDHA: Multi-Scale Deformable Transformer with Hybrid Anchors for Multi-View 3D Object Detection Michelle Adeline Junn Yong Loo Vishnu Monn Baskaran 112 1 0 25 Jun 2024
High-resolution open-vocabulary object 6D pose estimation Jaime Corsetti Davide Boscaini Francesco Giuliari Changjae Oh Andrea Cavallaro Fabio Poiesi 76 2 0 24 Jun 2024
Rethinking Remote Sensing Change Detection With A Mask View Xiaowen Ma Zhenkai Wu Rongrong Lian Wei Zhang Siyang Song 70 3 0 21 Jun 2024
Enhanced Bank Check Security: Introducing a Novel Dataset and Transformer-Based Approach for Detection and Verification Muhammad Gul Zain Ali Khan Tahira Shehzadi Rabeya Noor Didier Stricker Muhammad Zeshan Afzal 44 1 0 20 Jun 2024
SSAD: Self-supervised Auxiliary Detection Framework for Panoramic X-ray based Dental Disease Diagnosis Zijian Cai Xinquan Yang Xuguang Li Xiaoling Luo Xuechen Li Linlin Shen He Meng Yongqiang Deng MedIm 70 0 0 20 Jun 2024
ViLCo-Bench: VIdeo Language COntinual learning Benchmark Tianqi Tang Shohreh Deldari Hao Xue Celso De Melo Flora D. Salim CLL 81 2 0 19 Jun 2024
V3Det Challenge 2024 on Vast Vocabulary and Open Vocabulary Object Detection: Methods and Results Jiaqi Wang Yuhang Zang Pan Zhang Tao Chu Yuhang Cao ... Kehong Yuan Yanyan Zu Jiayao Ha Qiong Gao Licheng Jiao ObjD 94 1 0 17 Jun 2024
Technique Report of CVPR 2024 PBDL Challenges Ying Fu Yu Li Shaodi You Boxin Shi Linwei Chen ... Songyin Dai Sen Jia Junpei Zhang Puhua Chen Qihang Li 90 0 0 15 Jun 2024
An Image is Worth 32 Tokens for Reconstruction and Generation Qihang Yu Mark Weber XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen VLM ViT 172 104 0 11 Jun 2024
Open-World Human-Object Interaction Detection via Multi-modal Prompts Jie Yang Bingliang Li Ailing Zeng L. Zhang Ruimao Zhang VLM 102 8 0 11 Jun 2024
Mamba YOLO: SSMs-Based YOLO For Object Detection Zeyu Wang Chen Li Huiying Xu Xinzhong Zhu Mamba 114 7 0 09 Jun 2024
OD-DETR: Online Distillation for Stabilizing Training of Detection Transformer Shengjian Wu Li Sun Qingli Li 124 0 0 09 Jun 2024
Utilizing Grounded SAM for self-supervised frugal camouflaged human detection Matthias Pijarowski Alexander Wolpert Martin Heckmann Michael Teutsch 80 1 0 09 Jun 2024
A DeNoising FPN With Transformer R-CNN for Tiny Object Detection Hou-I Liu Yu-Wen Tseng Kai-Cheng Chang Pin-Jyun Wang Hong-Han Shuai Wen-Huang Cheng ViT ObjD 153 31 0 09 Jun 2024
CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset Abdelrahman Abdallah Mahmoud Abdalla M. Kasem Mohamed Mahmoud Ibrahim Abdelhalim Mohamed Elkasaby Yasser Elbendary Adam Jatowt 66 0 0 06 Jun 2024
Learning 1D Causal Visual Representation with De-focus Attention Networks Chenxin Tao Xizhou Zhu Shiqian Su Lewei Lu Changyao Tian ... Gao Huang Hongsheng Li Ping Luo Jie Zhou Jifeng Dai 123 1 0 06 Jun 2024
Parameter-Inverted Image Pyramid Networks Xizhou Zhu Xue Yang Zhaokai Wang Hao Li Wenhan Dou Junqi Ge Lewei Lu Ping Luo Jifeng Dai 79 0 0 06 Jun 2024
Matching Anything by Segmenting Anything Siyuan Li Lei Ke Martin Danelljan Luigi Piccinelli Mattia Segu Luc Van Gool Fisher Yu VOS 109 26 0 06 Jun 2024
LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection Qiang Chen Xiangbo Su Xinyu Zhang Jian Wang Jiahui Chen ... Shan Zhang Kun Yao Errui Ding Gang Zhang Jingdong Wang ViT 118 21 0 05 Jun 2024
Global Clipper: Enhancing Safety and Reliability of Transformer-based Object Detection Models Qutub Syed Sha Michael Paulitsch Karthik Pattabiraman Korbinian Hagn Fabian Oboril Cornelius Buerkle Kay-Ulrich Scholl Gereon Hinz Alois C. Knoll 98 0 0 05 Jun 2024
Situation Monitor: Diversity-Driven Zero-Shot Out-of-Distribution Detection using Budding Ensemble Architecture for Object Detection Qutub Syed Michael Paulitsch Korbinian Hagn Neslihan Kose Cihangir Kay-Ulrich Scholl Fabian Oboril Gereon Hinz Alois C. Knoll OODD 78 2 0 05 Jun 2024
MMCL: Boosting Deformable DETR-Based Detectors with Multi-Class Min-Margin Contrastive Learning for Superior Prohibited Item Detection Mingyuan Li Tong Jia Hui Lu Bowen Ma Hao Wang Dongyue Chen 86 3 0 05 Jun 2024
EgoSurgery-Tool: A Dataset of Surgical Tool and Hand Detection from Egocentric Open Surgery Videos Ryo Fujii Hideo Saito Hiroki Kajita 72 5 0 05 Jun 2024
Parrot: Multilingual Visual Instruction Tuning Hai-Long Sun Da-Wei Zhou Yangfu Li Shiyin Lu Chao Yi ... Zhao Xu Weihua Luo Kaifu Zhang De-Chuan Zhan Han-Jia Ye MLLM 148 12 0 04 Jun 2024
ELSA: Evaluating Localization of Social Activities in Urban Streets Maryam Hosseini Marco Cipriano Sedigheh Eslami Daniel Hodczak Liu Liu Andres Sevtsuk Gerard de Melo 67 0 0 03 Jun 2024
CYCLO: Cyclic Graph Transformer Approach to Multi-Object Relationship Modeling in Aerial Videos Trong-Thuan Nguyen Pha Nguyen Xin Li Jackson Cothren Alper Yilmaz Khoa Luu 119 3 0 03 Jun 2024
Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding Xiaolong Sun Liushuai Shi Le Wang Sanpin Zhou Kun Xia Yabing Wang Gang Hua 88 2 0 31 May 2024
On Calibration of Object Detectors: Pitfalls, Evaluation and Baselines Selim Kuzucu Kemal Oksuz Jonathan Sadeghi P. Dokania 89 5 0 30 May 2024
Towards Unified Multi-granularity Text Detection with Interactive Attention Xingyu Wan Chengquan Zhang Pengyuan Lyu Sen Fan Zihan Ni Kun Yao Errui Ding Jingdong Wang 92 2 0 30 May 2024
SSGA-Net: Stepwise Spatial Global-local Aggregation Networks for for Autonomous Driving Yiming Cui Cheng Han Dongfang Liu 96 0 0 29 May 2024
OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision Junjie Wang Bin Chen Bin Kang Yulin Li Yichi Chen Weizhi Xian Huifeng Chang VLM ObjD 84 7 0 28 May 2024
Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation Ya Lu Jishnu Jaykumar Yunhui Guo Nicholas Ruozzi Yu Xiang VLM ISeg 151 5 0 28 May 2024
The SkatingVerse Workshop & Challenge: Methods and Results Jian Zhao Lei Jin Jianshu Li Zheng Zhu Yinglei Teng ... Shiníchi Satoh Yandong Guo Cewu Lu Junliang Xing Jane Shengmei Shen AI4TS 53 0 0 27 May 2024
LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding Haoyu Zhao Wenhang Ge Ying-Cong Chen ObjD MLLM VLM 88 5 0 27 May 2024
Understanding differences in applying DETR to natural and medical images Yanqi Xu Yiqiu Shen C. Fernandez‐Granda Laura Heacock Krzysztof J. Geras MedIm 118 3 0 27 May 2024
Activator: GLU Activation Function as the Core Component of a Vision Transformer Abdullah Nazhat Abdullah Tarkan Aydin ViT 79 0 0 24 May 2024
MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method Pan Liao Feng Yang Di Wu Liu Bo 56 0 0 24 May 2024
YOLOv10: Real-Time End-to-End Object Detection Ao Wang Hui Chen Lihao Liu Kai Chen Zijia Lin Jungong Han Guiguang Ding 3DH 134 1,213 0 23 May 2024
Context and Geometry Aware Voxel Transformer for Semantic Scene Completion Zhuopu Yu Runmin Zhang Jiacheng Ying Junchen Yu Xiaohai Hu Lun Luo Siyuan Cao Hui-Liang Shen ViT 100 15 0 22 May 2024
Active Object Detection with Knowledge Aggregation and Distillation from Large Models Dejie Yang Yang Liu 99 5 0 21 May 2024
DATR: Unsupervised Domain Adaptive Detection Transformer with Dataset-Level Adaptation and Prototypical Alignment Jianhong Han Liang Chen Yupei Wang ViT 77 2 0 20 May 2024