DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment

10 April 2023

Jianhua Han

Xiaodan Liang

Wei Zhang

Hang Xu

Papers citing "DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment"

14 / 64 papers shown

Title
Region-centric Image-Language Pretraining for Open-Vocabulary Detection Dahun Kim A. Angelova Weicheng Kuo ObjD VLM 17 3 0 29 Sep 2023
Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training Xiaoyang Wu Zhuotao Tian Xin Wen Bohao Peng Xihui Liu Kaicheng Yu Hengshuang Zhao 26 46 0 18 Aug 2023
A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future Chaoyang Zhu Long Chen ObjD VLM 31 32 0 18 Jul 2023
Towards Open Vocabulary Learning: A Survey Jianzong Wu Xiangtai Li Shilin Xu Haobo Yuan Henghui Ding ... Jiangning Zhang Yu Tong Xudong Jiang Guohao Li Dacheng Tao ObjD VLM 34 136 0 28 Jun 2023
Scaling Open-Vocabulary Object Detection Matthias Minderer A. Gritsenko N. Houlsby VLM ObjD 24 178 0 16 Jun 2023
Multi-modal Queried Object Detection in the Wild Yifan Xu Mengdan Zhang Chaoyou Fu Peixian Chen Xiaoshan Yang Ke Li Changsheng Xu ObjD VLM 30 30 0 30 May 2023
Investigating the Role of Attribute Context in Vision-Language Models for Object Recognition and Detection Kyle Buettner Adriana Kovashka 20 0 0 17 Mar 2023
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu Zhaoyang Zeng Tianhe Ren Feng Li Hao Zhang ... Chun-yue Li Jianwei Yang Hang Su Jun Zhu Lei Zhang ObjD 89 1,820 0 09 Mar 2023
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation Yue Han Jiangning Zhang Zhucun Xue Chao Xu Xintian Shen Yabiao Wang Chengjie Wang Yong Liu Xiangtai Li 37 17 0 03 Jan 2023
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection Lewei Yao Jianhua Han Youpeng Wen Xiaodan Liang Dan Xu Wei Zhang Zhenguo Li Chunjing Xu Hang Xu CLIP VLM 115 153 0 20 Sep 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 392 4,137 0 28 Jan 2022
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 899 0 28 Apr 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 293 1,084 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 310 3,708 0 11 Feb 2021