Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model

28 March 2022

Papers citing "Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model"

44 / 244 papers shown

Title
Decomposed Prototype Learning for Few-Shot Scene Graph Generation Xingchen Li Long Chen Guikun Chen Yinfu Feng Yi Yang Jun Xiao 30 6 0 20 Mar 2023
Investigating the Role of Attribute Context in Vision-Language Models for Object Recognition and Detection Kyle Buettner Adriana Kovashka 20 0 0 17 Mar 2023
VEIL: Vetting Extracted Image Labels from In-the-Wild Captions for Weakly-Supervised Object Detection Arushi Rai Adriana Kovashka 27 0 0 16 Mar 2023
GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation Learning Jiaying Lin S. Gong VLM CLIP ObjD 25 22 0 16 Mar 2023
Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models Xinyang Liu Dongsheng Wang Bowei Fang Miaoge Li Zhibin Duan Yishi Xu Bo Chen Mingyuan Zhou VLM VPVLM 29 5 0 16 Mar 2023
SelfPromer: Self-Prompt Dehazing Transformers with Depth-Consistency Cong Wang Jin-shan Pan Wanyu Lin Jiangxin Dong Xiaomei Wu VLM MDE 34 39 0 13 Mar 2023
Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection Luting Wang Yi Liu Penghui Du Zihan Ding Yue Liao Qiaosong Qi Biaolong Chen Si Liu ObjD VLM 70 62 0 10 Mar 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 223 320 0 08 Mar 2023
CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP Junbo Zhang Runpei Dong Kaisheng Ma CLIP VLM 29 77 0 08 Mar 2023
CapDet: Unifying Dense Captioning and Open-World Detection Pretraining Yanxin Long Youpeng Wen Jianhua Han Hang Xu Pengzhen Ren Wei Zhang Sheng Zhao Xiaodan Liang ObjD VLM 14 31 0 04 Mar 2023
Weakly-supervised HOI Detection via Prior-guided Bi-level Representation Learning Bo Wan Yongfei Liu Desen Zhou Tinne Tuytelaars Xuming He 19 14 0 02 Mar 2023
Nearest Neighbors Meet Deep Neural Networks for Point Cloud Analysis Renrui Zhang Liuhui Wang Ziyu Guo Jianbo Shi 3DPC 32 10 0 01 Mar 2023
Aligning Bag of Regions for Open-Vocabulary Object Detection Size Wu Wenwei Zhang Sheng Jin Wentao Liu Chen Change Loy VLM ObjD 44 108 0 27 Feb 2023
Frustratingly Simple but Effective Zero-shot Detection and Segmentation: Analysis and a Strong Baseline Siddhesh Khandelwal Anirudth Nambirajan Behjat Siddiquie J. Eledath Leonid Sigal VLM 14 5 0 14 Feb 2023
Compositional Prompt Tuning with Motion Cues for Open-vocabulary Video Relation Detection Kaifeng Gao Long Chen Hanwang Zhang Jun Xiao Qianru Sun VLM VPVLM 24 27 0 01 Feb 2023
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation Yue Han Jiangning Zhang Zhucun Xue Chao Xu Xintian Shen Yabiao Wang Chengjie Wang Yong Liu Xiangtai Li 37 17 0 03 Jan 2023
Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation Jianzong Wu Xiangtai Li Henghui Ding Xia Li Guangliang Cheng Yu Tong Chen Change Loy VLM 85 31 0 02 Jan 2023
Learning to Detect and Segment for Open Vocabulary Object Detection Tao Wang Nan Li VLM ObjD 8 25 0 23 Dec 2022
X-Paste: Revisiting Scalable Copy-Paste for Instance Segmentation using CLIP and StableDiffusion Hanqing Zhao Dianmo Sheng Jianmin Bao Dongdong Chen Dong Chen ... Ce Liu Wenbo Zhou Qi Chu Weiming Zhang Neng H. Yu VLM DiffM 38 39 0 07 Dec 2022
PLA: Language-Driven Open-Vocabulary 3D Scene Understanding Runyu Ding Jihan Yang Chuhui Xue Wenqing Zhang Song Bai Xiaojuan Qi VLM 15 147 0 29 Nov 2022
SuS-X: Training-Free Name-Only Transfer of Vision-Language Models Vishaal Udandarao Ankush Gupta Samuel Albanie VLM MLLM 29 103 0 28 Nov 2022
Learning Object-Language Alignments for Open-Vocabulary Object Detection Chuang Lin Pei Sun Yi-Xin Jiang Ping Luo Lizhen Qu Gholamreza Haffari Zehuan Yuan Jianfei Cai VLM ObjD 26 95 0 27 Nov 2022
VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval Siteng Huang Biao Gong Yulin Pan Jianwen Jiang Yiliang Lv Yuyuan Li Donglin Wang VLM VPVLM 22 41 0 23 Nov 2022
One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and Inter-Image Attention Design Yikai Yan Chaoyue Niu Fan Wu Qinya Li Shaojie Tang Chengfei Lyu Guihai Chen 29 0 0 11 Nov 2022
Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models Cheng Ma Yang Liu Jiankang Deng Lingxi Xie Weiming Dong Changsheng Xu VLM VPVLM 28 43 0 04 Nov 2022
FairCLIP: Social Bias Elimination based on Attribute Prototype Learning and Representation Neutralization Junyan Wang Yi Zhang Jitao Sang FaML VLM 34 22 0 26 Oct 2022
Unified Vision and Language Prompt Learning Yuhang Zang Wei Li Kaiyang Zhou Chen Huang Chen Change Loy VLM VPVLM 14 147 0 13 Oct 2022
Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP Feng Liang Bichen Wu Xiaoliang Dai Kunpeng Li Yinan Zhao Hang Zhang Peizhao Zhang Peter Vajda Diana Marculescu CLIP VLM 37 433 0 09 Oct 2022
Bayesian Prompt Learning for Image-Language Model Generalization Mohammad Mahdi Derakhshani Enrique Sanchez Adrian Bulat Victor G. Turrisi da Costa Cees G. M. Snoek Georgios Tzimiropoulos Brais Martínez VPVLM VLM 97 34 0 05 Oct 2022
F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models Weicheng Kuo Huayu Chen Xiuye Gu A. Piergiovanni A. Angelova MLLM VLM ObjD 49 134 0 30 Sep 2022
REST: REtrieve & Self-Train for generative action recognition Adrian Bulat Enrique Sanchez Brais Martínez Georgios Tzimiropoulos VLM 29 4 0 29 Sep 2022
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention Ziyu Guo Renrui Zhang Longtian Qiu Xianzheng Ma Xupeng Miao Xuming He Bin Cui VLM AAML 59 109 0 28 Sep 2022
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection Lewei Yao Jianhua Han Youpeng Wen Xiaodan Liang Dan Xu Wei Zhang Zhenguo Li Chunjing Xu Hang Xu CLIP VLM 115 153 0 20 Sep 2022
Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models Manli Shu Weili Nie De-An Huang Zhiding Yu Tom Goldstein Anima Anandkumar Chaowei Xiao VLM VPVLM 186 282 0 15 Sep 2022
OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network Tiancheng Zhao Peng Liu Kyusong Lee VLM MLLM ObjD 19 7 0 10 Sep 2022
Prompt Tuning with Soft Context Sharing for Vision-Language Models Kun Ding Ying Wang Pengzhang Liu Qiang Yu Hao Zhang Shiming Xiang Chunhong Pan VPVLM VLM 29 14 0 29 Aug 2022
Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on Aligned Visual-Textual Features Shichao Xu Yikang Li Jenhao Hsiao C. Ho Zhuang Qi 14 7 0 19 Aug 2022
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection H. Rasheed Muhammad Maaz Muhammad Uzair Khattak Salman Khan F. Khan ObjD VLM 27 151 0 07 Jul 2022
Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer Su He Taian Guo Tao Dai Ruizhi Qiao Bo Ren Shutao Xia VLM 75 49 0 05 Jul 2022
Open Vocabulary Object Detection with Proposal Mining and Prediction Equalization Peixian Chen Kekai Sheng Mengdan Zhang Mingbao Lin Yunhang Shen Shaohui Lin Bo Ren Ke Li VLM ObjD 39 27 0 22 Jun 2022
Unsupervised Prompt Learning for Vision-Language Models Hao Huang Jack Chu Fangyun Wei VPVLM MLLM VLM 38 131 0 07 Apr 2022
Open-Vocabulary DETR with Conditional Matching Yuhang Zang Wei Li Kaiyang Zhou Chen Huang Chen Change Loy ObjD VLM 27 197 0 22 Mar 2022
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 348 2,271 0 02 Sep 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 310 3,708 0 11 Feb 2021