Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers

11 May 2023

Papers citing "Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers"

24 / 24 papers shown

Title
FG-CLIP: Fine-Grained Visual and Textual Alignment Chunyu Xie Bin Wang Fanjing Kong Jincheng Li Dawei Liang Gengshen Zhang Dawei Leng Yuhui Yin CLIP VLM 53 0 0 08 May 2025
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception Junjie Wang Bin Chen Yulin Li Bin Kang Yulin Chen Zhuotao Tian VLM 38 0 0 07 May 2025
Image Recognition with Online Lightweight Vision Transformer: A Survey Zherui Zhang Rongtao Xu Jie Zhou Changwei Wang Xingtian Pei ... Jiguang Zhang Li Guo Longxiang Gao Wenyuan Xu Shibiao Xu ViT 172 0 0 06 May 2025
Modulating CNN Features with Pre-Trained ViT Representations for Open-Vocabulary Object Detection Xiangyu Gao Yu Dai Benliu Qiu Hongliang Li Heqian Qiu Hongliang Li ObjD VLM 179 0 0 28 Jan 2025
Exploring Unbiased Deepfake Detection via Token-Level Shuffling and Mixing Xinghe Fu Zhiyuan Yan Taiping Yao Shen Chen Xi Li 41 3 0 08 Jan 2025
Open World Object Detection: A Survey Yiming Li Yi Wang Wenqian Wang Dan Lin Bingbing Li Kim-Hui Yap ObjD 39 0 0 15 Oct 2024
Open-Vocabulary X-ray Prohibited Item Detection via Fine-tuning CLIP Shuyang Lin Tong Jia Hao Wang Bowen Ma Mingyuan Li Dongyue Chen VLM ObjD 41 0 0 16 Jun 2024
OVMR: Open-Vocabulary Recognition with Multi-Modal References Zehong Ma Shiliang Zhang Longhui Wei Qi Tian VLM 44 0 0 07 Jun 2024
Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation Ya Lu Jishnu Jaykumar Yunhui Guo Nicholas Ruozzi Yu Xiang VLM ISeg 58 4 0 28 May 2024
Towards Zero-shot Human-Object Interaction Detection via Vision-Language Integration Weiying Xue Nan Zhuang Qiwei Xiong Yuxiao Wang Zhenao Wei Xiaofen Xing Xiangmin Xu VLM 45 3 0 12 Mar 2024
InstaGen: Enhancing Object Detection by Training on Synthetic Dataset Chengjian Feng Yujie Zhong Zequn Jie Weidi Xie Lin Ma ObjD 41 13 0 08 Feb 2024
AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One Michael Ranzinger Greg Heinrich Jan Kautz Pavlo Molchanov VLM 44 42 0 10 Dec 2023
Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features Hila Levi Guy Heller Dan Levi Ethan Fetaya OCL VLM 27 3 0 26 Sep 2023
Detect Everything with Few Examples Xinyu Zhang Yuting Wang Abdeslam Boularias ObjD VLM 32 13 0 22 Sep 2023
RECLIP: Resource-efficient CLIP by Training with Small Images Runze Li Dahun Kim B. Bhanu Weicheng Kuo VLM CLIP 36 13 0 12 Apr 2023
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks Weicheng Kuo A. Piergiovanni Dahun Kim Xiyang Luo Benjamin Caine ... Luowei Zhou Andrew M. Dai Zhifeng Chen Claire Cui A. Angelova MLLM VLM 29 23 0 29 Mar 2023
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation Yue Han Jiangning Zhang Zhucun Xue Chao Xu Xintian Shen Yabiao Wang Chengjie Wang Yong Liu Xiangtai Li 42 17 0 03 Jan 2023
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 308 7,457 0 11 Nov 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 253 1,024 0 13 Oct 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 356 5,811 0 29 Apr 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 899 0 28 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 328 3,708 0 11 Feb 2021
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Huayu Chen A. Srinivas Rui Qian Nayeon Lee E. D. Cubuk Quoc V. Le Barret Zoph ISeg 252 969 0 13 Dec 2020
Synthesizing the Unseen for Zero-shot Object Detection Nasir Hayat Munawar Hayat Shafin Rahman Salman Khan Syed Waqas Zamir Fahad Shahbaz Khan VLM ObjD 184 57 0 19 Oct 2020