Learning to Prompt for Vision-Language Models

2 September 2021

Papers citing "Learning to Prompt for Vision-Language Models"

50 / 372 papers shown

Title
Decoupled Multimodal Prototypes for Visual Recognition with Missing Modalities Jueqing Lu Yuanyuan Qi Xiaohao Yang Shujie Zhou Lan Du 29 0 0 13 May 2025
Beyond CLIP Generalization: Against Forward&Backward Forgetting Adapter for Continual Learning of Vision-Language Models Songlin Dong Chenhao Ding Jiangyang Li Jizhou Han Qiang Wang Yuhang He Yihong Gong CLL VLM 35 0 0 12 May 2025
$Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization$ Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ ual- $\mathbf{\texttt{H}}$ ead $\mathbf{\texttt{O}}$ ptimization Seongjae Kang Dong Bok Lee Hyungjoon Jang Sung Ju Hwang VLM 57 0 0 12 May 2025
Causal Prompt Calibration Guided Segment Anything Model for Open-Vocabulary Multi-Entity Segmentation Jingyao Wang Jianqi Zhang Wenwen Qiang Changwen Zheng VLM 37 0 0 10 May 2025
Learn to Think: Bootstrapping LLM Reasoning Capability Through Graph Learning Hang Gao Chenhao Zhang Tie Wang Junsuo Zhao Fengge Wu Changwen Zheng Huaping Liu LRM 29 0 0 09 May 2025
MonoCoP: Chain-of-Prediction for Monocular 3D Object Detection Zhihao Zhang Abhinav Kumar Girish Chandar Ganesan Xiaoming Liu 151 0 0 07 May 2025
Enhancing Target-unspecific Tasks through a Features Matrix Fangming Cui Yonggang Zhang Xuan Wang Xinmei Tian Jun Yu AAML 45 0 0 06 May 2025
Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection Fangling Jiang Qi Li Bing Liu Weining Wang Caifeng Shan Zhenan Sun Ming-Hsuan Yang 141 0 0 06 May 2025
Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin Yuchen Wang X. Bai X. Li Weili Guan Liqiang Nie Xinyang Chen VLM 44 0 0 04 May 2025
Mitigating Group-Level Fairness Disparities in Federated Visual Language Models Chaomeng Chen Zitong Yu J. Dong Sen Su L. Shen Shutao Xia Xiaochun Cao FedML VLM 143 0 0 03 May 2025
Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs Hari Chandana Kuchibhotla Sai Srinivas Kancheti Abbavaram Gowtham Reddy Vineeth N. Balasubramanian 45 0 0 02 May 2025
Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision Weicai Yan Wang Lin Zirun Guo Ye Wang Fangming Feng Xiaoda Yang Z. Wang Tao Jin DiffM 123 2 0 30 Apr 2025
FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models Mainak Singha Subhankar Roy Sarthak Mehrotra Ankit Jha Moloud Abdar Biplab Banerjee Elisa Ricci VLM VPVLM 119 0 0 29 Apr 2025
RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning Haoran Geng Feishi Wang Songlin Wei Y. Li Bangjun Wang ... Hao Dong Siyuan Huang Yue Wang Jitendra Malik Pieter Abbeel 85 4 0 26 Apr 2025
E-InMeMo: Enhanced Prompting for Visual In-Context Learning Jiahao Zhang Bowen Wang Hong Liu Liangzhi Li Yuta Nakashima Hajime Nagahara VLM 104 0 0 25 Apr 2025
AffordanceSAM: Segment Anything Once More in Affordance Grounding D. Jiang Mengmeng Wang Teli Ma H. Li Y. Liu Guang Dai L. Zhang 32 0 0 22 Apr 2025
LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation Jiachen Li Qing Xie Xiaohan Yu Hongyun Wang Jinyu Xu Yongjian Liu ObjD 78 0 0 20 Apr 2025
DMPT: Decoupled Modality-aware Prompt Tuning for Multi-modal Object Re-identification Minghui Lin Shu Wang Xiang Wang Jianhua Tang Longbin Fu Zhengrong Zuo Nong Sang VLM 42 0 0 15 Apr 2025
Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer Enming Zhang Liwen Cao Yanru Wu Zijie Zhao Guan Wang Yang Li 49 0 0 09 Apr 2025
M2IV: Towards Efficient and Fine-grained Multimodal In-Context Learning in Large Vision-Language Models Yanshu Li Hongyang He Yi Cao Qisen Cheng Xiang Fu Ruixiang Tang VLM 40 0 0 06 Apr 2025
Semantic-guided Representation Learning for Multi-Label Recognition Ruhui Zhang Hezhe Qiao Pengcheng Xu Mingsheng Shang Lin Chen 31 0 0 04 Apr 2025
Mitigating Cache Noise in Test-Time Adaptation for Large Vision-Language Models Haotian Zhai Xinyu Chen Can Zhang Tianming Sha Ruirui Li BDL VLM 67 0 0 24 Mar 2025
LoRA Subtraction for Drift-Resistant Space in Exemplar-Free Continual Learning Xuan Liu Xiaobin Chang CLL 168 0 0 23 Mar 2025
BackMix: Regularizing Open Set Recognition by Removing Underlying Fore-Background Priors Yu Wang Junxian Mu Hongzhi Huang Qilong Wang Pengfei Zhu Q. Hu 57 0 0 22 Mar 2025
Evolution-based Region Adversarial Prompt Learning for Robustness Enhancement in Vision-Language Models X. Jia Sensen Gao Simeng Qin Ke Ma X. Li Yihao Huang Wei Dong Yang Liu Xiaochun Cao AAML VLM 60 0 0 17 Mar 2025
TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification Ans Munir Faisal Z. Qureshi M. H. Khan Mohsen Ali VLM 70 0 0 15 Mar 2025
ProAPO: Progressively Automatic Prompt Optimization for Visual Classification Xiangyan Qu Gaopeng Gou Jiamin Zhuang Jing Yu Kun Song Qihao Wang Yili Li Gang Xiong VLM 86 0 0 13 Mar 2025
Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness B. Zhu Jiequan Cui H. Zhang Chi Zhang 85 0 0 12 Mar 2025
MMRL: Multi-Modal Representation Learning for Vision-Language Models Yuncheng Guo Xiaodong Gu VLM OffRL 132 1 0 11 Mar 2025
Generalizable Prompt Learning of CLIP: A Brief Overview Fangming Cui Yonggang Zhang Xuan Wang Xule Wang Liang Xiao VPVLM VLM 153 0 0 03 Mar 2025
Distilled Prompt Learning for Incomplete Multimodal Survival Prediction Yingxue Xu Fengtao Zhou Chenyu Zhao Yihui Wang Can Yang Hao Chen VLM OffRL 52 0 0 03 Mar 2025
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data Haoxin Li Boyang Li CoGe 73 0 0 03 Mar 2025
Visual Adaptive Prompting for Compositional Zero-Shot Learning Kyle Stein A. Mahyari Guillermo A. Francia Eman El-Sheikh VLM CoGe 140 1 0 27 Feb 2025
DGFM: Full Body Dance Generation Driven by Music Foundation Models Xinran Liu Zhenhua Feng Diptesh Kanojia Wenwu Wang DiffM 66 1 0 27 Feb 2025
InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models Shuchang Zhou Jiwei Wei Shiyuan He Yuyang Zhou Chaoning Zhang Jie Zou Ning Xie Yang Yang VLM VPVLM 81 0 0 27 Feb 2025
MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering Caixiong Li Xiongwei Zhao Jinhang Zhang Xing Zhang Qihao Sun Zhou Wu ObjD MLLM VLM 56 0 0 23 Feb 2025
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification Jiangbo Shi Chen Li Tieliang Gong Yefeng Zheng Huazhu Fu VLM 62 7 0 12 Feb 2025
Vision-Language Models for Edge Networks: A Comprehensive Survey Ahmed Sharshar Latif U. Khan Waseem Ullah Mohsen Guizani VLM 70 3 0 11 Feb 2025
Prompt-Driven Continual Graph Learning Qi Wang Tianfei Zhou Ye Yuan Rui Mao CLL 44 0 0 10 Feb 2025
Conformal Predictions for Human Action Recognition with Vision-Language Models Bary Tim Fuchs Clément Macq Benoît VLM 46 0 0 10 Feb 2025
Model Diffusion for Certifiable Few-shot Transfer Learning Fady Rezk Royson Lee H. Gouk Timothy M. Hospedales Minyoung Kim 50 0 0 10 Feb 2025
Learning Clustering-based Prototypes for Compositional Zero-shot Learning Hongyu Qu Jianan Wei Xiangbo Shu Wenguan Wang VLM 51 1 0 10 Feb 2025
Noise is an Efficient Learner for Zero-Shot Vision-Language Models Raza Imam Asif Hanif Jian Zhang Khaled Waleed Dawoud Yova Kementchedjhieva Mohammad Yaqub VLM 55 0 0 09 Feb 2025
Demystifying Catastrophic Forgetting in Two-Stage Incremental Object Detector Qirui Wu Shizhou Zhang De-Chun Cheng Yinghui Xing Di Xu Peng Wang Yanning Zhang ObjD 61 0 0 08 Feb 2025
Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion Marco Mistretta Alberto Baldrati Lorenzo Agnolucci Marco Bertini Andrew D. Bagdanov CLIP VLM 101 2 0 06 Feb 2025
Disentangling CLIP for Multi-Object Perception Samyak Rawelekar Yujun Cai Yiwei Wang Ming-Hsuan Yang N. Ahuja VLM CoGe 72 0 0 05 Feb 2025
RandLoRA: Full-rank parameter-efficient fine-tuning of large models Paul Albert Frederic Z. Zhang Hemanth Saratchandran Cristian Rodriguez-Opazo Anton van den Hengel Ehsan Abbasnejad 94 0 0 03 Feb 2025
DesCLIP: Robust Continual Adaptation via General Attribute Descriptions for Pretrained Vision-Language Models Chiyuan He Zihuan Qiu Fanman Meng Linfeng Xu Q. Wu H. Li VLM CLL KELM 63 0 0 02 Feb 2025
Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models Behraj Khan T. Syed 134 1 0 29 Jan 2025
Safe Gradient Flow for Bilevel Optimization Sina Sharifi Nazanin Abolfazli E. Y. Hamedani Mahyar Fazlyab 36 0 0 27 Jan 2025