Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model

28 March 2022

Papers citing "Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model"

50 / 244 papers shown

Title
Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt Bin-Bin Gao 34 4 0 14 May 2025
Beyond General Prompts: Automated Prompt Refinement using Contrastive Class Alignment Scores for Disambiguating Objects in Vision-Language Models Lucas Choi Ross Greer VLM 30 0 0 14 May 2025
Causal Prompt Calibration Guided Segment Anything Model for Open-Vocabulary Multi-Entity Segmentation Wenwen Qiang Jianqi Zhang Jingyao Wang Changwen Zheng VLM 37 0 0 10 May 2025
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception Junjie Wang Bin Chen Yulin Li Bin Kang Yulin Chen Zhuotao Tian VLM 38 0 0 07 May 2025
EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery Wei Zhang Miaoxin Cai Yaqian Ning T. Zhang Yin Zhuang He Chen Jun Li Xuerui Mao 36 0 0 17 Apr 2025
Generalized Visual Relation Detection with Diffusion Models Kaifeng Gao Siqi Chen Hanwang Zhang Jun Xiao Yueting Zhuang Qianru Sun 40 0 0 16 Apr 2025
Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation Yongchao Feng Yajie Liu Shuai Yang Wenrui Cai Jingyang Zhang ... Jiahui Lv Ziqiang Liu Tengyuan Shi Qingjie Liu Yixuan Wang MLLM VLM 63 1 0 13 Apr 2025
Few-Shot Adaptation of Grounding DINO for Agricultural Domain Rajhans Singh Rafael Bidese Puhl Kshitiz Dhakal Sudhir Sornapudi 31 0 0 09 Apr 2025
ProbRes: Probabilistic Jump Diffusion for Open-World Egocentric Activity Recognition Sanjoy Kundu Shanmukha Vellamchetti Sathyanarayanan N. Aakur EgoV 52 0 0 04 Apr 2025
Semantic-guided Representation Learning for Multi-Label Recognition Ruhui Zhang Hezhe Qiao Pengcheng Xu Mingsheng Shang Lin Chen 31 0 0 04 Apr 2025
Refining CLIP's Spatial Awareness: A Visual-Centric Perspective Congpei Qiu Yanhao Wu Wei Ke Xiuxiu Bai Tong Zhang VLM 52 0 0 03 Apr 2025
STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection Divya Velayudhan A. Ahmed Mohamad Alansari Neha Gour Abderaouf Behouch ... Muzammal Naseer Juergen Gall Mohammed Bennamoun Ernesto Damiani Naoufel Werghi 47 0 0 03 Apr 2025
GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection Xingyu Peng Si Liu Chen Gao Yan Bai Beipeng Mu Xiaofei Wang Huaxia Xia 64 0 0 26 Mar 2025
Anomize: Better Open Vocabulary Video Anomaly Detection Fei Li Wenxuan Liu J. Chen Ruixu Zhang Yixuan Wang Xian Zhong Zheng Wang 48 0 0 23 Mar 2025
Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection Chuhan Zhang Chaoyang Zhu Pingcheng Dong Long Chen Dong Zhang ObjD VLM 164 0 0 14 Mar 2025
A Hierarchical Semantic Distillation Framework for Open-Vocabulary Object Detection Shenghao Fu Junkai Yan Q. Yang Xihan Wei Xiaohua Xie Wei-Shi Zheng ObjD VLM 45 0 0 13 Mar 2025
Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images M. Rahaman Ewan K. A. Millar Erik H. W. Meijering VLM 64 0 0 13 Mar 2025
OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer Jinyang Li En Yu Sijia Chen Wenbing Tao 60 1 0 13 Mar 2025
Debiased Prompt Tuning in Vision-Language Model without Annotations Chaoquan Jiang Yunfan Yang Rui Hu Jitao Sang VLM 57 0 0 11 Mar 2025
XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition Chuanming Wang Henming Mao Huanhuan Zhang Huiyuan Fu Huadong Ma VLM 47 0 0 10 Mar 2025
Grad-ECLIP: Gradient-based Visual and Textual Explanations for CLIP Chenyang Zhao Kun Wang J. H. Hsiao Antoni B. Chan CLIP 71 0 0 26 Feb 2025
MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering Caixiong Li Xiongwei Zhao Jinhang Zhang Xing Zhang Qihao Sun Zhou Wu ObjD MLLM VLM 56 0 0 23 Feb 2025
Prompt as Knowledge Bank: Boost Vision-language model via Structural Representation for zero-shot medical detection Yuguang Yang Tongfei Chen Haoyu Huang Linlin Yang Chunyu Xie Dawei Leng Xianbin Cao Baochang Zhang MedIm 41 0 0 22 Feb 2025
Prompt-Driven Continual Graph Learning Qi Wang Tianfei Zhou Ye Yuan Rui Mao CLL 47 0 0 10 Feb 2025
YOLO-UniOW: Efficient Universal Open-World Object Detection Lihao Liu Juexiao Feng Hui Chen Ao Wang Lin Song J. Han Guiguang Ding ObjD VLM 49 2 0 31 Dec 2024
CATALOG: A Camera Trap Language-guided Contrastive Learning Model Julian D. Santamaria Claudia Isaza Jhony H. Giraldo 81 0 0 14 Dec 2024
Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training Haicheng Wang Chen Ju Weixiong Lin Shuai Xiao Mengting Chen ... Mingshuai Yao Jinsong Lan Ying Chen Qingwen Liu Yanfeng Wang VLM CLIP 72 4 0 30 Nov 2024
From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects Zizhao Li Zhengkang Xiang Joseph West Kourosh Khoshelham ObjD VLM 96 1 0 27 Nov 2024
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements M. Arda Aydın Efe Mert Çırpar Elvin Abdinli Gözde B. Ünal Y. Sahin VLM 71 0 0 18 Nov 2024
Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection Wentao Bao Keqin Li Yuxiao Chen Deep Patel Martin Renqiang Min Yu Kong VLM ObjD 42 2 0 17 Nov 2024
Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination Haojie Zheng Tianyang Xu Hanchi Sun Shu Pu Ruoxi Chen Lichao Sun MLLM LRM 84 8 0 15 Nov 2024
Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation Yan Li Weiwei Guo Xue Yang Ning Liao Shaofeng Zhang Yi Yu Wenxian Yu Junchi Yan ObjD 38 0 0 04 Nov 2024
ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images Timing Yang Yuanliang Ju Li Yi 3DPC 34 3 0 31 Oct 2024
Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models Shenghao Fu Junkai Yan Q. Yang Xihan Wei Xiaohua Xie Wei-Shi Zheng VLM 25 3 0 25 Oct 2024
OVT-B: A New Large-Scale Benchmark for Open-Vocabulary Multi-Object Tracking Haiji Liang Ruize Han VLM 32 1 0 23 Oct 2024
Open World Object Detection: A Survey Yiming Li Yi Wang Wenqian Wang Dan Lin Bingbing Li Kim-Hui Yap ObjD 39 0 0 15 Oct 2024
Boosting Open-Vocabulary Object Detection by Handling Background Samples Ruizhe Zeng Lu Zhang Xu Yang Zhiyong Liu VLM ObjD 28 0 0 11 Oct 2024
SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary Detection Zishuo Wang Wenhao Zhou Jinglin Xu Yuxin Peng ObjD VLM 21 1 0 08 Oct 2024
P4Q: Learning to Prompt for Quantization in Visual-language Models H. Sun Runqi Wang Yanjing Li Xianbin Cao Xiaolong Jiang Yao Hu Baochang Zhang MQ VLM 42 0 0 26 Sep 2024
Attention Prompting on Image for Large Vision-Language Models Runpeng Yu Weihao Yu Xinchao Wang VLM 37 6 0 25 Sep 2024
Vision-Language Models Assisted Unsupervised Video Anomaly Detection Yalong Jiang Liquan Mao 23 0 0 21 Sep 2024
SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking Siyuan Li Lei Ke Yung-Hsu Yang Luigi Piccinelli Mattia Segu Martin Danelljan Luc Van Gool VLM 40 4 0 17 Sep 2024
An Attribute-Enriched Dataset and Auto-Annotated Pipeline for Open Detection Pengfei Qi Yifei Zhang Wenqiang Li Youwen Hu Kunlong Bai ObjD 42 0 0 10 Sep 2024
YOLOO: You Only Learn from Others Once Lipeng Gu Mingqiang Wei Xuefeng Yan Dingkun Zhu Wei Zhao H. Xie Yang Liu 3DPC 41 0 0 01 Sep 2024
Nemesis: Normalizing the Soft-prompt Vectors of Vision-Language Models Shuai Fu Xiequn Wang Qiushi Huang Yu Zhang VLM 45 2 0 26 Aug 2024
ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation Jingyun Wang Guoliang Kang VLM SSL 47 7 0 13 Aug 2024
Efficient Test-Time Prompt Tuning for Vision-Language Models Yuhan Zhu Guozhen Zhang Chen Xu Haocheng Shen Xiaoxin Chen Gangshan Wu Limin Wang VLM 37 2 0 11 Aug 2024
Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection Ting Lei Shaofeng Yin Yuxin Peng Yang Liu VLM 32 5 0 05 Aug 2024
Fairness and Bias Mitigation in Computer Vision: A Survey Sepehr Dehdashtian Ruozhen He Yi Li Guha Balakrishnan Nuno Vasconcelos Vicente Ordonez Vishnu Naresh Boddeti 37 4 0 05 Aug 2024
MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection Kuo Wang Lechao Cheng Weikai Chen Pingping Zhang Liang Lin Fan Zhou Guanbin Li VLM ObjD 36 2 0 31 Jul 2024