Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models

25 October 2024

Papers citing "Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models"

22 / 22 papers shown

Title
Federated EndoViT: Pretraining Vision Transformers via Federated Learning on Endoscopic Image Collections Max Kirchner Alexander C. Jenke S. Bodenstedt Fiona Kolbinger Oliver Saldanha Jakob N. Kather M. Wagner Stefanie Speidel FedML MedIm 83 1 0 23 Apr 2025
Deconstructing Denoising Diffusion Models for Self-Supervised Learning Xinlei Chen Zhuang Liu Saining Xie Kaiming He DiffM 47 55 0 25 Jan 2024
Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video Shashanka Venkataramanan Mamshad Nayeem Rizve João Carreira Yuki M. Asano Yannis Avrithis SSL 44 18 0 12 Oct 2023
Group DETR: Fast DETR Training with Group-Wise One-to-Many Assignment Qiang Chen Xiaokang Chen Jian Wang Shan Zhang Kun Yao Haocheng Feng Junyu Han Errui Ding Gang Zeng Jingdong Wang ViT 72 123 0 26 Jul 2022
Vision Transformer Adapter for Dense Predictions Zhe Chen Yuchen Duan Wenhai Wang Junjun He Tong Lu Jifeng Dai Yu Qiao 50 552 0 17 May 2022
DeiT III: Revenge of the ViT Hugo Touvron Matthieu Cord Hervé Jégou ViT 97 402 0 14 Apr 2022
Proper Reuse of Image Classification Features Improves Object Detection C. N. Vasconcelos Vighnesh Birodkar Vincent Dumoulin VLM 41 32 0 01 Apr 2022
AdaMixer: A Fast-Converging Query-Based Object Detector Ziteng Gao Limin Wang Bing Han Sheng Guo ObjD 53 106 0 30 Mar 2022
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection Hao Zhang Feng Li Shilong Liu Lei Zhang Hang Su Jun Zhu L. Ni H. Shum ViT 112 1,399 0 07 Mar 2022
DN-DETR: Accelerate DETR Training by Introducing Query DeNoising Feng Li Hao Zhang Shi-guang Liu Jian Guo L. Ni Lei Zhang ViT 85 660 0 02 Mar 2022
Detecting Twenty-thousand Classes using Image-level Supervision Xingyi Zhou Rohit Girdhar Armand Joulin Phillip Krahenbuhl Ishan Misra CLIP VLM 79 602 0 07 Jan 2022
iBOT: Image BERT Pre-Training with Online Tokenizer Jinghao Zhou Chen Wei Huiyu Wang Wei Shen Cihang Xie Alan Yuille Tao Kong 45 722 0 15 Nov 2021
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao Li Dong Songhao Piao Furu Wei ViT 111 2,785 0 15 Jun 2021
Probabilistic two-stage detection Xingyi Zhou V. Koltun Philipp Krahenbuhl ObjD 56 224 0 12 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 484 28,659 0 26 Feb 2021
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 143 40,217 0 22 Oct 2020
Deformable DETR: Deformable Transformers for End-to-End Object Detection Xizhou Zhu Weijie Su Lewei Lu Bin Li Xiaogang Wang Jifeng Dai ViT 129 4,993 0 08 Oct 2020
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 338 41,106 0 28 May 2020
LVIS: A Dataset for Large Vocabulary Instance Segmentation Agrim Gupta Piotr Dollár Ross B. Girshick ISeg VLM 68 1,352 0 08 Aug 2019
MMDetection: Open MMLab Detection Toolbox and Benchmark Kai-xiang Chen Jiaqi Wang Jiangmiao Pang Yuhang Cao Yu Xiong ... Jingdong Wang Jianping Shi Wanli Ouyang Chen Change Loy Dahua Lin VOS 74 2,845 0 17 Jun 2019
Feature Pyramid Networks for Object Detection Nayeon Lee Piotr Dollár Ross B. Girshick Kaiming He Bharath Hariharan Serge J. Belongie ObjD 370 21,951 0 09 Dec 2016
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren Kaiming He Ross B. Girshick Jian Sun AIMat ObjD 331 61,900 0 04 Jun 2015