v1v2v3v4 (latest)

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

7 March 2022

Hao Zhang

Feng Li

Shilong Liu

Lei Zhang

Hang Su

Jun Zhu

L. Ni

H. Shum

ViT

ArXiv (abs)PDF HTML Github (2506★)

Papers citing "DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection"

50 / 742 papers shown

Title
SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment Anything Model Shili Zhou Ruian He Weimin Tan Bo Yan VLM 57 13 0 31 Jul 2023
RecursiveDet: End-to-End Region-based Recursive Object Detection Jing Zhao Li Sun Qingli Li ObjD 101 2 0 25 Jul 2023
Described Object Detection: Liberating Object Detection with Flexible Expressions Chi Xie Zhao Zhang YiXuan Wu Feng Zhu Rui Zhao Shuang Liang ObjD 89 35 0 24 Jul 2023
Less is More: Focus Attention for Efficient DETR Dehua Zheng Wenhui Dong Hailin Hu Xinghao Chen Yunhe Wang 75 65 0 24 Jul 2023
Learning Dynamic Query Combinations for Transformer-based Object Detection and Segmentation Yiming Cui L. Yang Hai-ping Yu 91 8 0 23 Jul 2023
GEM: Boost Simple Network for Glass Surface Segmentation via Vision Foundation Models Jing Hao Xinyu Li Liang Gao Shumin Han VLM DiffM 116 2 0 22 Jul 2023
Enhancing Your Trained DETRs with Box Refinement Yiqun Chen Qiang Chen Pei Sun Shoufa Chen Jingdong Wang Jian Cheng 83 2 0 21 Jul 2023
AlignDet: Aligning Pre-training and Fine-tuning in Object Detection Ming Li Jie Wu Xionghui Wang Chen Chen Jie Qin Xu Xiao Rui Wang Min Zheng Xin Pan ObjD VLM 79 18 0 20 Jul 2023
Cascade-DETR: Delving into High-Quality Universal Object Detection Mingqiao Ye Lei Ke Siyuan Li Yu-Wing Tai Chi-Keung Tang Martin Danelljan Feng Yu 122 37 0 20 Jul 2023
Automating Wood Species Detection and Classification in Microscopic Images of Fibrous Materials with Deep Learning Lars Nieradzik Jördis Sieburg-Rockel Stephanie Helmling J. Keuper Thomas Weibel Andrea Olbrich Henrike Stephani 71 6 0 18 Jul 2023
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning Liang Zhao En Yu Zheng Ge Jinrong Yang Hao-Ran Wei ... Jian‐Yuan Sun Yuang Peng Runpei Dong Chunrui Han Xiangyu Zhang MLLM LRM 79 54 0 18 Jul 2023
A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future Chaoyang Zhu Long Chen ObjD VLM 144 40 0 18 Jul 2023
Scale-Aware Modulation Meet Transformer Wei-Shiang Lin Ziheng Wu Jiayu Chen Jun Huang Lianwen Jin MoE ViT 117 78 0 17 Jul 2023
Box-DETR: Understanding and Boxing Conditional Spatial Queries Wenze Liu Hao Lu Yuliang Liu Zhiguo Cao ViT 78 2 0 17 Jul 2023
Semi-DETR: Semi-Supervised Object Detection with Detection Transformers Jiacheng Zhang Xiangru Lin Wei Emma Zhang Kuo Wang Xiao Tan Junyu Han Errui Ding Jingdong Wang Guanbin Li ViT 74 38 0 16 Jul 2023
OG: Equip vision occupancy with instance segmentation and visual grounding Zichao Dong Hang Ji Weikun Zhang Xufeng Huang Junbo Chen ISeg VLM 46 0 0 12 Jul 2023
HA-ViD: A Human Assembly Video Dataset for Comprehensive Assembly Knowledge Understanding Hao Zheng R. Lee Yuqian Lu VGen 28 17 0 09 Jul 2023
TBGC: Task-level Backbone-Oriented Gradient Clip for Multi-Task Foundation Model Learning Z. Zhang Xue Pan 30 0 0 07 Jul 2023
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo MLLM VLM 168 238 0 07 Jul 2023
Separated RoadTopoFormer Mingjie Lu Yuanxian Huang Ji Liu Jinzhan Peng Lu Tian Ashish Sirasao 80 2 0 04 Jul 2023
AVSegFormer: Audio-Visual Segmentation with Transformer Sheng Gao Zhe Chen Guo Chen Wenhai Wang Tong Lu VOS 115 52 0 03 Jul 2023
Hierarchical Open-vocabulary Universal Image Segmentation Xudong Wang Shufang Li Konstantinos Kallidromitis Yu Kato Kazuki Kozuka Trevor Darrell VLM OCL 126 41 0 03 Jul 2023
Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection Yifan Zhang Zhiyu Zhu Junhui Hou Dapeng Wu 121 8 0 01 Jul 2023
MTR++: Multi-Agent Motion Prediction with Symmetric Scene Modeling and Guided Intention Querying Shaoshuai Shi Li Jiang Dengxin Dai Bernt Schiele 82 129 0 30 Jun 2023
Integrating Large Pre-trained Models into Multimodal Named Entity Recognition with Evidential Fusion Weide Liu Xiaoyang Zhong Jingwen Hou Shaohua Li Haozhe Huang Yuming Fang EDL 56 5 0 29 Jun 2023
The Segment Anything Model (SAM) for Remote Sensing Applications: From Zero to One Shot L. Osco Qiusheng Wu Eduardo Lopes de Lemos W. Gonçalves A. P. Ramos Jonathan Li J. M. Junior VLM 86 201 0 29 Jun 2023
Taming Detection Transformers for Medical Object Detection Marc K. Ickler Michael Baumgartner Saikat Roy Tassilo Wald Klaus H. Maier-Hein ViT MedIm 56 6 0 27 Jun 2023
A Survey on Multimodal Large Language Models Shukang Yin Chaoyou Fu Sirui Zhao Ke Li Xing Sun Tong Xu Enhong Chen MLLM LRM 138 613 0 23 Jun 2023
Bridging the Performance Gap between DETR and R-CNN for Graphical Object Detection in Document Images Tahira Shehzadi K. Hashmi D. Stricker Marcus Liwicki Muhammad Zeshan Afzal 122 7 0 23 Jun 2023
CrossKD: Cross-Head Knowledge Distillation for Object Detection Jiabao Wang Yuming Chen Zhaohui Zheng Xiang Li Ming-Ming Cheng Qibin Hou 160 40 0 20 Jun 2023
DEYOv2: Rank Feature with Greedy Matching for End-to-End Object Detection Hao Ouyang 91 5 0 15 Jun 2023
Towards AGI in Computer Vision: Lessons Learned from GPT and Large Language Models Lingxi Xie Longhui Wei Xiaopeng Zhang Kaifeng Bi Xiaotao Gu Jianlong Chang Qi Tian 86 7 0 14 Jun 2023
detrex: Benchmarking Detection Transformers Tianhe Ren Siyi Liu Feng Li Hao Zhang Ailing Zeng ... Zhaoyang Zeng Xianbiao Qi Yuhui Yuan Jianwei Yang Lei Zhang 83 14 0 12 Jun 2023
FasterViT: Fast Vision Transformers with Hierarchical Attention Ali Hatamizadeh Greg Heinrich Hongxu Yin Andrew Tao J. Álvarez Jan Kautz Pavlo Molchanov ViT 122 72 0 09 Jun 2023
Image Blending Algorithm with Automatic Mask Generation Haochen Xue Min Jin Chong Zhang Yuxuan Huang Q. Weng Xiaobo Jin 30 0 0 08 Jun 2023
RefineVIS: Video Instance Segmentation with Temporal Attention Refinement Andre Abrantes Jiang Wang Peng Chu Quanzeng You Zicheng Liu VOS 53 0 0 07 Jun 2023
Object Detection with Transformers: A Review Tahira Shehzadi K. Hashmi D. Stricker Muhammad Zeshan Afzal ViT MU 104 29 0 07 Jun 2023
YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast Video Polyp Detection Yuncheng Jiang Zixun Zhang Ruimao Zhang Guanbin Li Shuguang Cui Zerui Li 43 3 0 06 Jun 2023
Recognize Anything: A Strong Image Tagging Model Youcai Zhang Xinyu Huang Jinyu Ma Zhaoyang Li Zhaochuan Luo ... Tong Luo Yaqian Li Siyi Liu Yandong Guo Lei Zhang VLM 144 242 0 06 Jun 2023
OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection Zhangyang Qi Jiaqi Wang Xiaoyang Wu Hengshuang Zhao 96 12 0 02 Jun 2023
Segment Anything in High Quality Lei Ke Mingqiao Ye Martin Danelljan Yifan Liu Yu-Wing Tai Chi-Keung Tang Feng Yu VLM 126 341 0 02 Jun 2023
Multi-modal Queried Object Detection in the Wild Yifan Xu Mengdan Zhang Chaoyou Fu Peixian Chen Xiaoshan Yang Ke Li Changsheng Xu ObjD VLM 133 32 0 30 May 2023
MS-DETR: Natural Language Video Localization with Sampling Moment-Moment Interaction Jiashuo Wang Aixin Sun Hao Zhang Xiaoli Li ViT 73 14 0 30 May 2023
Contextual Object Detection with Multimodal Large Language Models Yuhang Zang Wei Li Jun Han Kaiyang Zhou Chen Change Loy ObjD VLM MLLM 118 88 0 29 May 2023
InstructEdit: Improving Automatic Masks for Diffusion-based Image Editing With User Instructions Qian Wang Biao Zhang Michael Birsak Peter Wonka DiffM 69 37 0 29 May 2023
Image Quality Is Not All You Want: Task-Driven Lens Design for Image Classification Xinge Yang Qiang Fu Yunfeng Nie Wolfgang Heidrich VLM 70 7 0 26 May 2023
TFDet: Target-Aware Fusion for RGB-T Pedestrian Detection Xue Zhang Xiaohan Zhang Jiacheng Ying Zehua Sheng Heng Yu Chunguang Li Hui-Liang Shen ViT 72 12 0 26 May 2023
Image as First-Order Norm+Linear Autoregression: Unveiling Mathematical Invariance Yinpeng Chen Xiyang Dai Dongdong Chen Mengchen Liu Lu Yuan Zicheng Liu Youzuo Lin 101 2 0 25 May 2023
Thinking Twice: Clinical-Inspired Thyroid Ultrasound Lesion Detection Based on Feature Feedback Lingtao Wang Jianrui Ding Fenghe Tang C. Ning 74 1 0 24 May 2023
ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents Christoph Auer A. Nassar Maksym Lysak Michele Dolfi Nikolaos Livathinos Peter W. J. Staar OOD 3DV 60 7 0 24 May 2023