Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model

28 March 2022

Papers citing "Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model"

50 / 244 papers shown

Title
OCTrack: Benchmarking the Open-Corpus Multi-Object Tracking Zekun Qian Ruize Han Wei Feng Junhui Hou Linqi Song Song Wang 42 1 0 19 Jul 2024
EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension Wei Zhang Miaoxin Cai Tong Zhang Jun Li Zhuang Yin Xuerui Mao 66 5 0 18 Jul 2024
Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation Pengfei Wang Yuxi Wang Shuai Li Zhaoxiang Zhang Zhen Lei Lei Zhang 48 2 0 18 Jul 2024
OVGNet: A Unified Visual-Linguistic Framework for Open-Vocabulary Robotic Grasping Meng Li Qi Zhao Shuchang Lyu Chunlei Wang Yujing Ma Guangliang Cheng Chenguang Yang 29 4 0 18 Jul 2024
Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation Shijie Chang Youwei Pang Xiaoqi Zhao Lihe Zhang Huchuan Lu 42 1 0 16 Jul 2024
LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction Penghui Du Yu Wang Yifan Sun Luting Wang Yue Liao Gang Zhang Errui Ding Yan Wang Jingdong Wang Si Liu VLM ObjD 43 1 0 16 Jul 2024
OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models Zijian Zhou Zheng Zhu Holger Caesar Miaojing Shi VLM 33 2 0 15 Jul 2024
Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion Philipp Allgeuer Kyra Ahrens Stefan Wermter CLIP VLM 27 3 0 15 Jul 2024
Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection Xingyu Peng Yan Bai Chen Gao Lirong Yang Fei Xia Beipeng Mu Xiaofei Wang Si Liu ObjD 42 3 0 12 Jul 2024
Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation Hao Fang Peng Wu Yawei Li Xinxin Zhang Xiankai Lu VLM 32 6 0 10 Jul 2024
Zero-shot Object Counting with Good Exemplars Huilin Zhu Jingling Yuan Zhengwei Yang Yu Guo Zheng Wang Xian Zhong Shengfeng He VLM 39 6 0 06 Jul 2024
AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation Yuhan Zhu Yuyang Ji Zhiyu Zhao Gangshan Wu Limin Wang VLM 41 7 0 05 Jul 2024
Enhancing Domain Adaptation through Prompt Gradient Alignment Hoang Phan Lam C. Tran Quyen Tran Trung Le 52 0 0 13 Jun 2024
CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language Alignment Sajid Javed Arif Mahmood I. I. Ganapathi Fayaz Ali Dharejo Naoufel Werghi Mohammed Bennamoun VLM LM&MA 42 12 0 07 Jun 2024
OVMR: Open-Vocabulary Recognition with Multi-Modal References Zehong Ma Shiliang Zhang Longhui Wei Qi Tian VLM 41 0 0 07 Jun 2024
Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection Yang Cao Yihan Zeng Hang Xu Dan Xu 3DPC ObjD 47 6 0 02 Jun 2024
Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection Jiaming Li Jiacheng Zhang Jichang Li Ge Li Si Liu Liang Lin Guanbin Li ObjD VLM 48 13 0 01 Jun 2024
RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection Fangyi Chen Han Zhang Zhantao Yang Hao Chen Kai Hu Marios Savvides ObjD VLM 41 5 0 30 May 2024
OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision Junjie Wang Bin Chen Bin Kang Yulin Li Yichi Chen Weizhi Xian Huifeng Chang VLM ObjD 36 7 0 28 May 2024
Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View Jin Wang Shichao Dong Yapeng Zhu Kelu Yao Weidong Zhao Chao Li Ping Luo CoGe LRM 48 2 0 27 May 2024
Large Language Model (LLM) for Telecommunications: A Comprehensive Survey on Principles, Key Techniques, and Opportunities Hao Zhou Chengming Hu Ye Yuan Yufei Cui Yili Jin ... Di Wu Xue Liu Charlie Zhang Xianbin Wang Jiangchuan Liu 35 59 0 17 May 2024
SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection Mingxuan Liu Tyler L. Hayes Elisa Ricci G. Csurka Riccardo Volpi ObjD 58 1 0 16 May 2024
Open-Vocabulary Object Detection via Neighboring Region Attention Alignment Sunyuan Qiang Xianfei Li Yanyan Liang Wenlong Liao Tao He Pai Peng ObjD 40 0 0 14 May 2024
Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation Qiyuan Dai Sibei Yang 34 8 0 18 Apr 2024
Progressive Multi-modal Conditional Prompt Tuning Xiaoyu Qiu Hao Feng Yuechen Wang Wen-gang Zhou Houqiang Li VLM 29 1 0 18 Apr 2024
Single-temporal Supervised Remote Change Detection for Domain Generalization Qiangang Du Jinlong Peng Xu Chen Qingdong He Liren He Qiang Nie Wenbing Zhu Mingmin Chi Yabiao Wang Chengjie Wang 35 1 0 17 Apr 2024
Zero-shot detection of buildings in mobile LiDAR using Language Vision Model June Moh Goo Zichao Zeng Jan Boehm 46 2 0 15 Apr 2024
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu VLM ObjD 53 20 0 14 Apr 2024
Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation Yanhao Zheng Kai Liu ObjD 26 1 0 12 Apr 2024
Deep Learning-Based Out-of-distribution Source Code Data Identification: How Far Have We Gone? Van Nguyen Xingliang Yuan Tingmin Wu Surya Nepal M. Grobler Carsten Rudolph 45 1 0 09 Apr 2024
Retrieval-Augmented Open-Vocabulary Object Detection Jooyeon Kim Eulrang Cho Sehyung Kim Hyunwoo J. Kim VLM ObjD 45 8 0 08 Apr 2024
Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation Ji-Jia Wu Andy Chia-Hao Chang Chieh-Yu Chuang Chun-Pei Chen Yu-Lun Liu Min-Hung Chen Hou-Ning Hu Yung-Yu Chuang Yen-Yu Lin VLM 46 9 0 05 Apr 2024
Is CLIP the main roadblock for fine-grained open-world perception? Lorenzo Bianchi F. Carrara Nicola Messina Fabrizio Falchi VLM 40 4 0 04 Apr 2024
ViTamin: Designing Scalable Vision Models in the Vision-Language Era Jienneg Chen Qihang Yu Xiaohui Shen Alan L. Yuille Liang-Chieh Chen 3DV VLM 36 24 0 02 Apr 2024
T-VSL: Text-Guided Visual Sound Source Localization in Mixtures Tanvir Mahmud Yapeng Tian Diana Marculescu 42 8 0 02 Apr 2024
Weakly-supervised Audio Separation via Bi-modal Semantic Similarity Tanvir Mahmud Saeed Amizadeh K. Koishida Diana Marculescu AI4TS 16 2 0 02 Apr 2024
OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation Xiongwei Wu Sicheng Yu Ee-Peng Lim Chong-Wah Ngo VLM 37 2 0 01 Apr 2024
Open-Vocabulary Object Detectors: Robustness Challenges under Distribution Shifts Prakash Chandra Chhipa Kanjar De Meenakshi Subhash Chippa Rajkumar Saini Marcus Liwicki ObjD VLM 36 1 0 01 Apr 2024
Prompt Learning for Oriented Power Transmission Tower Detection in High-Resolution SAR Images Tianyang Li Chao Wang Hong Zhang 16 0 0 01 Apr 2024
Lipsum-FT: Robust Fine-Tuning of Zero-Shot Models Using Random Text Guidance G. Nam Byeongho Heo Juho Lee VLM 39 5 0 01 Apr 2024
Prompt Learning via Meta-Regularization Jinyoung Park Juyeon Ko Hyunwoo J. Kim VLM VPVLM 47 14 0 01 Apr 2024
Training-Free Semantic Segmentation via LLM-Supervision Wenfang Sun Yingjun Du Gaowen Liu Ramana Rao Kompella Cees G. M. Snoek VLM 44 2 0 31 Mar 2024
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation Zhenyu Wang Yali Li Taichi Liu Hengshuang Zhao Shengjin Wang 3DPC ObjD 40 7 0 28 Mar 2024
Open-Set Recognition in the Age of Vision-Language Models Dimity Miller Niko Sünderhauf Alex Kenna Keita Mason VLM 37 3 0 25 Mar 2024
Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval Yuchen Suo Fan Ma Linchao Zhu Yi Yang 40 19 0 24 Mar 2024
FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs Sepehr Dehdashtian Lan Wang Vishnu Naresh Boddeti VLM 41 11 0 22 Mar 2024
CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation Wenqi Zhu Jiale Cao Jin Xie Shuangming Yang Yanwei Pang VLM CLIP 39 2 0 19 Mar 2024
OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation Junhao Cai Yisheng He Weihao Yuan Siyu Zhu Zilong Dong Liefeng Bo Qifeng Chen DiffM 35 8 0 19 Mar 2024
Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization Zhao Wang Aoxue Li Fengwei Zhou Zhenguo Li Qi Dou ObjD VLM 32 2 0 14 Mar 2024
Towards Zero-shot Human-Object Interaction Detection via Vision-Language Integration Weiying Xue Qi Liu Qiwei Xiong Yuxiao Wang Zhenao Wei Xiaofen Xing Xiangmin Xu VLM 45 3 0 12 Mar 2024