v1v2v3v4 (latest)

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

7 March 2022

Hao Zhang

Feng Li

Shilong Liu

Lei Zhang

Hang Su

Jun Zhu

L. Ni

H. Shum

ViT

ArXiv (abs)PDF HTML Github (2506★)

Papers citing "DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection"

50 / 742 papers shown

Title
SAR-W-MixMAE: SAR Foundation Model Training Using Backscatter Power Weighting Ali Caglayan Nevrez Imamoglu T. Kouyama 160 0 0 03 Mar 2025
WeGen: A Unified Model for Interactive Multimodal Generation as We Chat Zhipeng Huang Shaobin Zhuang Canmiao Fu Binxin Yang Ying Zhang Chong Sun Zhizheng Zhang Yali Wang Chen Li Zheng-Jun Zha DiffM 123 3 0 03 Mar 2025
MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism Zhixiong Nan Xianghong Li Jifeng Dai Tao Xiang 139 0 0 03 Mar 2025
Solving Instance Detection from an Open-World Perspective Qianqian Shen Yunhan Zhao Nahyun Kwon Jeeeun Kim Yanan Li Shu Kong 140 1 0 01 Mar 2025
WalnutData: A UAV Remote Sensing Dataset of Green Walnuts and Model Evaluation Mingjie Wu Chenggui Yang Huihua Wang Chen Xue Yibo Wang ... Yuqi Han R. Li Lijun Yun Zaiqing Chen Siyang Song 180 0 0 27 Feb 2025
OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection Shuming Liu Chen Zhao Fatimah Zohra Mattia Soldan Alejandro Pardo ... Juan Carlos León Alcázar A. Cioppa Silvio Giancola Carlos Hinojosa Bernard Ghanem 110 3 0 27 Feb 2025
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration X. J. Yang Jing Liu Peng Wang Guoqing Wang Yue Yang Jikang Cheng ObjD 196 0 0 27 Feb 2025
K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs Ziheng Ouyang Zhen Li Qibin Hou MoMe OffRL 252 4 0 25 Feb 2025
Hierarchical Context Transformer for Multi-level Semantic Scene Understanding Luoying Hao Yan Hu Yang Yue Li Wu Huazhu Fu Jinming Duan Jiang Liu 99 0 0 24 Feb 2025
Vision Language Models in Medicine Beria Chingnabe Kalpelbe Angel Gabriel Adaambiik Wei Peng VLM LM&MA 121 2 0 24 Feb 2025
MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering Caixiong Li Xiongwei Zhao Jinhang Zhang Xing Zhang Qihao Sun Zhou Wu ObjD MLLM VLM 96 0 0 23 Feb 2025
EDocNet: Efficient Datasheet Layout Analysis Based on Focus and Global Knowledge Distillation Hong Cai Chen Longchang Wu Yang Zhang 72 0 0 23 Feb 2025
YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection Yuming Chen Xinbin Yuan Ruiqi Wu Jiabao Wang Qibin Hou Mingg-Ming Cheng Ming-Ming Cheng ObjD 292 59 0 21 Feb 2025
Bridging Text and Vision: A Multi-View Text-Vision Registration Approach for Cross-Modal Place Recognition Tianyi Shang Zhenyu Li Pengjie Xu Jinwei Qiao Gang Chen Zihan Ruan Weijun Hu 122 1 0 20 Feb 2025
Understanding and Evaluating Hallucinations in 3D Visual Language Models Ruiying Peng Kaiyuan Li Weichen Zhang Chen Gao Xinlei Chen Yongqian Li 182 1 0 18 Feb 2025
CLoCKDistill: Consistent Location-and-Context-aware Knowledge Distillation for DETRs Qizhen Lan Qing Tian 86 0 0 15 Feb 2025
SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer Wenxi Li Yuchen Guo Jilai Zheng Haozhe Lin Chao Ma Lu Fang Xiaokang Yang ViT 160 5 0 11 Feb 2025
Dense Object Detection Based on De-homogenized Queries Yueming Huang Chenrui Ma Hao Zhou Hao Wu Guowu Yuan 206 0 0 11 Feb 2025
Foundation Model-Based Apple Ripeness and Size Estimation for Selective Harvesting Keyi Zhu Jiajia Li Kaixiang Zhang Chaaran Arunachalam Siddhartha Bhattacharya R. Lu Zhaojian Li 187 0 0 03 Feb 2025
CSPCL: Category Semantic Prior Contrastive Learning for Deformable DETR-Based Prohibited Item Detectors Mingyuan Li Tong Jia Hui Lu Bowen Ma Hao Wang Dongyue Chen 142 0 0 28 Jan 2025
MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis Mai A. Shaaban Adnan Khan Mohammad Yaqub LM&MA 142 2 0 28 Jan 2025
DynamicEarth: How Far are We from Open-Vocabulary Change Detection? Kaiyu Li Xiangyong Cao Yupeng Deng Chao Pang Zepeng Xin Deyu Meng Zhi Wang ObjD 151 1 0 22 Jan 2025
See In Detail: Enhancing Sparse-view 3D Gaussian Splatting with Local Depth and Semantic Regularization Zongqi He Zhe Xiao Kin-Chung Chan Yushen Zuo Jun Xiao Kin-Man Lam 3DGS 162 0 0 20 Jan 2025
3rd Workshop on Maritime Computer Vision (MaCVi) 2025: Challenge Results Benjamin Kiefer Lojze Žust Jon Muhovič Matej Kristan J. Pers ... Ashraf Saleem Ching-Heng Cheng Yu-Fan Lin Tzu-Yu Lin Chih-Chung Hsu 77 1 0 20 Jan 2025
Enhancing Novel Object Detection via Cooperative Foundational Models Rohit K Bharadwaj Muzammal Naseer Salman Khan Fahad Shahbaz Khan ObjD VLM 347 1 0 17 Jan 2025
Enhancing Image Generation Fidelity via Progressive Prompts Zhen Xiong Yuqi Li Chuanguang Yang Tiao Tan Zhihong Zhu Siyuan Li Yue Ma 84 4 0 13 Jan 2025
Enhancing, Refining, and Fusing: Towards Robust Multi-Scale and Dense Ship Detection Congxia Zhao Xiongjun Fu Jian Dong Shen Cao Chunyan Zhang 89 1 0 10 Jan 2025
UniQ: Unified Decoder with Task-specific Queries for Efficient Scene Graph Generation Xinyao Liao Xiaoye Qu Dangyang Chen Yuanyuan Fu 141 0 0 10 Jan 2025
Siamese-DETR for Generic Multi-Object Tracking Qiankun Liu Yichen Li Yuqi Jiang Ying Fu VOT 123 9 0 08 Jan 2025
ORGANA: A Robotic Assistant for Automated Chemistry Experimentation and Characterization Kourosh Darvish Marta Skreta Yuchi Zhao Naruki Yoshikawa Sagnik Som ... Han Hao Haoping Xu Alán Aspuru-Guzik Animesh Garg Florian Shkurti 119 32 0 08 Jan 2025
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 284 5 0 31 Dec 2024
ERUP-YOLO: Enhancing Object Detection Robustness for Adverse Weather Condition by Unified Image-Adaptive Processing Yuka Ogino Yuho Shoji Takahiro Toizumi Atsushi Ito 134 3 0 31 Dec 2024
Interacted Object Grounding in Spatio-Temporal Human-Object Interactions Xiaoyang Liu Boran Wen Xinpeng Liu Zizheng Zhou Hongwei Fan Cewu Lu Lizhuang Ma Yulong Chen Yongqian Li 160 3 0 27 Dec 2024
To Predict or Not To Predict? Proportionally Masked Autoencoders for Tabular Data Imputation Jungkyu Kim Kibok Lee Taeyoung Park 134 0 0 26 Dec 2024
Towards Unsupervised Model Selection for Domain Adaptive Object Detection Hengfu Yu Jinhong Deng Wen Li Lixin Duan 121 0 0 23 Dec 2024
IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks Yaming Zhang Chenqiang Gao Fangcen Liu Junjie Guo Lan Wang Xinggan Peng Deyu Meng 195 0 0 21 Dec 2024
OmniPrism: Learning Disentangled Visual Concept for Image Generation Yangyang Li Daqing Liu Wu Liu Allen He Xinchen Liu Yongdong Zhang Guoqing Jin DiffM CoGe 100 0 0 16 Dec 2024
Predicting the Original Appearance of Damaged Historical Documents Zhenhua Yang Dezhi Peng Yongxin Shi Yuyi Zhang Chongyu Liu Lianwen Jin 157 3 0 16 Dec 2024
SHMT: Self-supervised Hierarchical Makeup Transfer via Latent Diffusion Models Zhaoyang Sun Shengwu Xiong Yaxiong Chen Fei Du Weihua Chen Fan Wang Yi Rong DiffM 117 1 0 15 Dec 2024
Rebalanced Vision-Language Retrieval Considering Structure-Aware Distillation Yang Yang Wenjuan Xi Luping Zhou Jinhui Tang 148 0 0 14 Dec 2024
Just a Few Glances: Open-Set Visual Perception with Image Prompt Paradigm Jinrong Zhang Penghui Wang Chunxiao Liu Wei Liu D. Jin Qiong Zhang Erli Meng Zhengnan Hu VLM 137 0 0 14 Dec 2024
PanSR: An Object-Centric Mask Transformer for Panoptic Segmentation Lojze Žust Matej Kristan ViT 152 1 0 13 Dec 2024
GAQAT: gradient-adaptive quantization-aware training for domain generalization Jiacheng Jiang Yuan Meng Chen Tang Han Yu Qun Li Zhi Wang Wenwu Zhu MQ 84 0 0 07 Dec 2024
Beyond Boxes: Mask-Guided Spatio-Temporal Feature Aggregation for Video Object Detection K. Hashmi Talha Uddin Sheikh Didier Stricker Muhammad Zeshan Afzal 113 0 0 06 Dec 2024
Towards Real-Time Open-Vocabulary Video Instance Segmentation Bin Yan Martin Sundermeyer D. Tan Huchuan Lu F. Tombari VLM VOS 155 2 0 05 Dec 2024
DEIM: DETR with Improved Matching for Fast Convergence Shihua Huang Zhichao Lu Xiaodong Cun Yongjun Yu Xiao Zhou Xi Shen VLM 500 7 0 05 Dec 2024
MeasureNet: Measurement Based Celiac Disease Identification Aayush Kumar Tyagi Vaibhav Mishra Ashok Tiwari Lalita Mehra Prasenjit Das G. Makharia Prathosh AP Mausam 129 0 0 02 Dec 2024
HandOS: 3D Hand Reconstruction in One Stage Xingyu Chen Zhuheng Song Xiaoke Jiang Yaoqing Hu Junzhi Yu Lei Zhang 3DH HAI 197 0 0 02 Dec 2024
BGM: Background Mixup for X-ray Prohibited Items Detection Wen Liu R. Tao Hongguang Zhu Yunda Sun Yao Zhao Y. X. Wei 165 0 0 30 Nov 2024
LQ-Adapter: ViT-Adapter with Learnable Queries for Gallbladder Cancer Detection from Ultrasound Image Chetan Madan Mayuna Gupta Soumen Basu Pankaj Gupta Chetan Arora 172 0 0 30 Nov 2024