Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection

18 October 2023

Jianwei Yang

Zuxuan Wu

Lu Yuan

Yu-Gang Jiang

ArXiv PDF HTML

Papers citing "Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection"

50 / 62 papers shown

Title
CQ-DINO: Mitigating Gradient Dilution via Category Queries for Vast Vocabulary Object Detection Zhichao Sun Huazhang Hu Yidong Ma Gang Liu Nemo Chen Xu Tang Feng-Long Xie Yongchao Xu ObjD 97 0 0 24 Mar 2025
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale Yuxin Fang Wen Wang Binhui Xie Quan-Sen Sun Ledell Yu Wu Xinggang Wang Tiejun Huang Xinlong Wang Yue Cao VLM CLIP 173 713 0 14 Nov 2022
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions Wenhai Wang Jifeng Dai Zhe Chen Zhenhang Huang Zhiqi Li ... Tong Lu Lewei Lu Hongsheng Li Xiaogang Wang Yu Qiao VLM 112 683 0 10 Nov 2022
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection H. Rasheed Muhammad Maaz Muhammad Uzair Khattak Salman Khan Fahad Shahbaz Khan ObjD VLM 95 154 0 07 Jul 2022
Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding Lingchen Meng Xiyang Dai Yinpeng Chen Pengchuan Zhang Dongdong Chen Mengchen Liu Jianfeng Wang Zuxuan Wu Lu Yuan Yu-Gang Jiang ObjD 71 24 0 07 Jun 2022
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks Zhecan Wang Noel Codella Yen-Chun Chen Luowei Zhou Xiyang Dai ... Jianwei Yang Haoxuan You Kai-Wei Chang Shih-Fu Chang Lu Yuan VLM OffRL 58 23 0 22 Apr 2022
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting G. Han Long Chen Jiawei Ma Shiyuan Huang Ramalingam Chellappa Shih-Fu Chang VLM 81 20 0 16 Apr 2022
Exploring Plain Vision Transformer Backbones for Object Detection Yanghao Li Hanzi Mao Ross B. Girshick Kaiming He ViT 87 806 0 30 Mar 2022
Focal Modulation Networks Jianwei Yang Chunyuan Li Xiyang Dai Lu Yuan Jianfeng Gao 3DPC 73 271 0 22 Mar 2022
Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation Zongyang Ma Guan Luo Jin Gao Liang Li Yuxin Chen Shaoru Wang Congxuan Zhang Weiming Hu VLM ObjD 113 84 0 20 Mar 2022
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection Hao Zhang Feng Li Shilong Liu Lei Zhang Hang Su Jun Zhu L. Ni H. Shum ViT 159 1,435 0 07 Mar 2022
DN-DETR: Accelerate DETR Training by Introducing Query DeNoising Feng Li Hao Zhang Shi-guang Liu Jian Guo L. Ni Lei Zhang ViT 122 675 0 02 Mar 2022
Detecting Twenty-thousand Classes using Image-level Supervision Xingyi Zhou Rohit Girdhar Armand Joulin Phillip Krahenbuhl Ishan Misra CLIP VLM 99 614 0 07 Jan 2022
Equalized Focal Loss for Dense Long-Tailed Object Detection Yue Liu Yongqiang Yao Jingru Tan Gang Zhang F. Yu Jianwei Lu Ye Luo 60 98 0 07 Jan 2022
RegionCLIP: Region-based Language-Image Pretraining Yiwu Zhong Jianwei Yang Pengchuan Zhang Chunyuan Li Noel Codella ... Luowei Zhou Xiyang Dai Lu Yuan Yin Li Jianfeng Gao VLM CLIP 130 575 0 16 Dec 2021
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Lei Li Kai-Wei Chang Jianfeng Gao ObjD VLM 120 1,061 0 07 Dec 2021
A Fast Knowledge Distillation Framework for Visual Recognition Zhiqiang Shen Eric P. Xing VLM 58 48 0 02 Dec 2021
AdaViT: Adaptive Vision Transformers for Efficient Image Recognition Lingchen Meng Hengduo Li Bor-Chun Chen Shiyi Lan Zuxuan Wu Yu-Gang Jiang Ser-Nam Lim ViT 79 232 0 30 Nov 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 451 7,739 0 11 Nov 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 272 917 0 28 Apr 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 170 881 0 26 Apr 2021
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Ze Liu Yutong Lin Yue Cao Han Hu Yixuan Wei Zheng Zhang Stephen Lin B. Guo ViT 441 21,392 0 25 Mar 2021
Probabilistic two-stage detection Xingyi Zhou V. Koltun Philipp Krahenbuhl ObjD 93 225 0 12 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 900 29,372 0 26 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 426 1,127 0 17 Feb 2021
MosaicOS: A Simple and Effective Use of Object-Centric Images for Long-Tailed Object Detection Cheng Zhang Tai-Yu Pan Yandong Li Hexiang Hu D. Xuan Soravit Changpinyo Boqing Gong Wei-Lun Chao ObjD VLM 103 42 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 443 3,842 0 11 Feb 2021
Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels Sangdoo Yun Seong Joon Oh Byeongho Heo Dongyoon Han Junsuk Choe Sanghyuk Chun 476 146 0 13 Jan 2021
Training data-efficient image transformers & distillation through attention Hugo Touvron Matthieu Cord Matthijs Douze Francisco Massa Alexandre Sablayrolles Hervé Jégou ViT 377 6,762 0 23 Dec 2020
Equalization Loss v2: A New Gradient Balance Approach for Long-tailed Object Detection Jingru Tan Xin Lu Gang Zhang Changqing Yin Quanquan Li VLM 55 170 0 15 Dec 2020
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Huayu Chen A. Srinivas Rui Qian Nayeon Lee E. D. Cubuk Quoc V. Le Barret Zoph ISeg 289 991 0 13 Dec 2020
Open-Vocabulary Object Detection Using Captions Alireza Zareian Kevin Dela Rosa Derek Hao Hu Shih-Fu Chang VLM ObjD 120 429 0 20 Nov 2020
Deformable DETR: Deformable Transformers for End-to-End Object Detection Xizhou Zhu Weijie Su Lewei Lu Bin Li Xiaogang Wang Jifeng Dai ViT 216 5,073 0 08 Oct 2020
Seesaw Loss for Long-Tailed Instance Segmentation Jiaqi Wang Wenwei Zhang Yuhang Zang Yuhang Cao Jiangmiao Pang Tao Gong Kai-xiang Chen Ziwei Liu Chen Change Loy Dahua Lin 61 240 0 23 Aug 2020
Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax Yu Li Tao Wang Bingyi Kang Sheng Tang Chunfeng Wang Jintao Li Jiashi Feng 146 265 0 18 Jun 2020
Rethinking Pre-training and Self-training Barret Zoph Golnaz Ghiasi Nayeon Lee Huayu Chen Hanxiao Liu E. D. Cubuk Quoc V. Le SSeg 85 651 0 11 Jun 2020
VirTex: Learning Visual Representations from Textual Annotations Karan Desai Justin Johnson SSL VLM 144 435 0 11 Jun 2020
End-to-End Object Detection with Transformers Nicolas Carion Francisco Massa Gabriel Synnaeve Nicolas Usunier Alexander Kirillov Sergey Zagoruyko ViT 3DV PINN 382 13,025 0 26 May 2020
Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere Tongzhou Wang Phillip Isola SSL 154 1,839 0 20 May 2020
YOLOv4: Optimal Speed and Accuracy of Object Detection Alexey Bochkovskiy Chien-Yao Wang H. Liao VLM ObjD 156 12,268 0 23 Apr 2020
Equalization Loss for Long-Tailed Object Recognition Jingru Tan Changbao Wang Buyu Li Quanquan Li Wanli Ouyang Changqing Yin Junjie Yan 318 463 0 11 Mar 2020
Contrastive Representation Distillation Yonglong Tian Dilip Krishnan Phillip Isola 144 1,048 0 23 Oct 2019
Decoupling Representation and Classifier for Long-Tailed Recognition Bingyi Kang Saining Xie Marcus Rohrbach Zhicheng Yan Albert Gordo Jiashi Feng Yannis Kalantidis OODD 172 1,217 0 21 Oct 2019
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter Victor Sanh Lysandre Debut Julien Chaumond Thomas Wolf 230 7,498 0 02 Oct 2019
TinyBERT: Distilling BERT for Natural Language Understanding Xiaoqi Jiao Yichun Yin Lifeng Shang Xin Jiang Xiao Chen Linlin Li F. Wang Qun Liu VLM 97 1,860 0 23 Sep 2019
Scaling Object Detection by Transferring Classification Weights Jason Kuen Federico Perazzi Zhe Lin Jianming Zhang Yap-Peng Tan ViT 36 18 0 15 Sep 2019
LVIS: A Dataset for Large Vocabulary Instance Segmentation Agrim Gupta Piotr Dollár Ross B. Girshick ISeg VLM 100 1,369 0 08 Aug 2019
Cap2Det: Learning to Amplify Weak Caption Supervision for Object Detection Keren Ye Ruotong Wang Adriana Kovashka Wei Li Danfeng Qin Jesse Berent 104 60 0 23 Jul 2019
FCOS: Fully Convolutional One-Stage Object Detection Zhi Tian Chunhua Shen Hao Chen Tong He ObjD 123 5,007 0 02 Apr 2019
PCL: Proposal Cluster Learning for Weakly Supervised Object Detection Peng Tang Xinggang Wang S. Bai Wei Shen X. Bai Wenyu Liu Alan Yuille WSOD 70 367 0 09 Jul 2018