Learning to Prompt for Vision-Language Models

2 September 2021

Papers citing "Learning to Prompt for Vision-Language Models"

50 / 392 papers shown

Title
AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning Yuwei Tang Zhenyi Lin Qilong Wang Pengfei Zhu Qinghua Hu 30 11 0 13 Apr 2024
Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking Tianyu Zhu M. Jung Jesse Clark 91 1 0 12 Apr 2024
Realistic Continual Learning Approach using Pre-trained Models Nadia Nasri Carlos Gutiérrez-Álvarez Sergio Lafuente-Arroyo Saturnino Maldonado-Bascón Roberto J. López-Sastre CLL 37 0 0 11 Apr 2024
Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection Ting Lei Shaofeng Yin Yang Liu VLM 47 9 0 09 Apr 2024
Privacy Preserving Prompt Engineering: A Survey Kennedy Edemacu Xintao Wu 47 18 0 09 Apr 2024
Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation Ji-Jia Wu Andy Chia-Hao Chang Chieh-Yu Chuang Chun-Pei Chen Yu-Lun Liu Min-Hung Chen Hou-Ning Hu Yung-Yu Chuang Yen-Yu Lin VLM 43 9 0 05 Apr 2024
$R^2$ -Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding Ye Liu Jixuan He Wanhua Li Junsik Kim D. Wei Hanspeter Pfister Chang Wen Chen 41 13 0 31 Mar 2024
Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain Generalization Mainak Singha Ankit Jha Shirsha Bose Ashwin Nair Moloud Abdar Biplab Banerjee VLM 60 10 0 31 Mar 2024
Training-Free Semantic Segmentation via LLM-Supervision Wenfang Sun Yingjun Du Gaowen Liu Ramana Rao Kompella Cees G. M. Snoek VLM 44 2 0 31 Mar 2024
Deep Instruction Tuning for Segment Anything Model Xiaorui Huang Gen Luo Chaoyang Zhu Bo Tong Yiyi Zhou Xiaoshuai Sun Rongrong Ji VLM 49 1 0 31 Mar 2024
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models Barbara Toniella Corradini Mustafa Shukor Paul Couairon Guillaume Couairon Franco Scarselli Matthieu Cord DiffM VLM 45 4 0 29 Mar 2024
X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization Anna Kukleva Fadime Sener Edoardo Remelli Bugra Tekin Eric Sauser Bernt Schiele Shugao Ma VLM EgoV 42 1 0 28 Mar 2024
Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation Yutong He Alexander Robey Naoki Murata Yiding Jiang J. Williams George Pappas Hamed Hassani Yuki Mitsufuji Ruslan Salakhutdinov J. Zico Kolter DiffM 104 4 0 28 Mar 2024
PLOT-TAL -- Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization Edward Fish Jon Weinbren Andrew Gilbert 44 1 0 27 Mar 2024
Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning Huiyi Wang Haodong Lu Lina Yao Dong Gong KELM CLL 45 8 0 27 Mar 2024
Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models Elaine Sui Xiaohan Wang Serena Yeung-Levy VLM 30 5 0 19 Mar 2024
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images Chaoqin Huang Aofan Jiang Jinghao Feng Ya-Qin Zhang Xinchao Wang Yanfeng Wang MedIm 45 25 0 19 Mar 2024
CPA-Enhancer: Chain-of-Thought Prompted Adaptive Enhancer for Object Detection under Unknown Degradations Yuwei Zhang Yan Wu Yanming Liu Xinyue Peng 49 5 0 17 Mar 2024
Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification Long Lan Fengxiang Wang Shuyan Li Xiangtao Zheng Zengmao Wang Xinwang Liu VLM 31 7 0 13 Mar 2024
Improving deep learning with prior knowledge and cognitive models: A survey on enhancing explainability, adversarial robustness and zero-shot learning F. Mumuni A. Mumuni AAML 37 5 0 11 Mar 2024
Domain-Agnostic Mutual Prompting for Unsupervised Domain Adaptation Zhekai Du Xinyao Li Fengling Li Ke Lu Lei Zhu Jingjing Li 40 15 0 05 Mar 2024
DomainVerse: A Benchmark Towards Real-World Distribution Shifts For Tuning-Free Adaptive Domain Generalization Feng Hou Jin Yuan Ying Yang Yang Liu Yang Zhang Cheng Zhong Zhongchao Shi Jianping Fan Yong Rui Zhiqiang He VLM 51 1 0 05 Mar 2024
Enhancing Vision-Language Pre-training with Rich Supervisions Yuan Gao Kunyu Shi Pengkai Zhu Edouard Belval Oren Nuriel Srikar Appalaraju Shabnam Ghadar Vijay Mahadevan Zhuowen Tu Stefano Soatto VLM CLIP 67 12 0 05 Mar 2024
Large Convolutional Model Tuning via Filter Subspace Wei Chen Zichen Miao Qiang Qiu 51 3 0 01 Mar 2024
Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction Hao Li Ying Chen Yifei Chen Wenxian Yang Bowen Ding Yuchen Han Liansheng Wang Rongshan Yu 33 15 0 29 Feb 2024
Global and Local Prompts Cooperation via Optimal Transport for Federated Learning Hongxia Li Wei Huang Jingya Wang Ye-ling Shi FedML VLM 38 19 0 29 Feb 2024
Parameter-efficient Prompt Learning for 3D Point Cloud Understanding Hongyu Sun Yongcai Wang Wang Chen Haoran Deng Deying Li VPVLM 49 5 0 24 Feb 2024
One-shot Imitation in a Non-Stationary Environment via Multi-Modal Skill Sangwoo Shin Daehee Lee Minjong Yoo Woo Kyung Kim Honguk Woo 32 9 0 13 Feb 2024
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning Yuhang Liu Zhen Zhang Dong Gong Erdun Gao Biwei Huang Anton Van Den Hengel Anton van den Hengel Javen Qinfeng Shi Javen Qinfeng Shi 49 7 0 09 Feb 2024
Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization Yuhang Zang Hanlin Goh Josh Susskind Chen Huang VLM 37 12 0 29 Jan 2024
PL-FSCIL: Harnessing the Power of Prompts for Few-Shot Class-Incremental Learning Songsong Tian Lusi Li Weijun Li Hang Ran Li Li X. Ning CLL VLM 36 3 0 26 Jan 2024
LanDA: Language-Guided Multi-Source Domain Adaptation Zhenbin Wang Lei Zhang Lituan Wang Minjuan Zhu 35 10 0 25 Jan 2024
Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation Ci-Siang Lin Chien-Yi Wang Yu-Chiang Frank Wang Min-Hung Chen VLM 23 0 0 22 Jan 2024
CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios Xiangshuo Qiao Xianxin Li Xiaozhe Qu Jie M. Zhang Yang Liu Yu Luo Cihang Jin Jin Ma VLM 33 0 0 19 Jan 2024
HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain Generalization Guanglin Zhou Zhongyi Han Shiming Chen Erdun Gao Liming Zhu Tongliang Liu Lina Yao Anton van den Hengel 32 3 0 18 Jan 2024
Towards A Better Metric for Text-to-Video Generation Jay Zhangjie Wu Guian Fang Haoning Wu Xintao Wang Yixiao Ge ... Rui Zhao Weisi Lin Wynne Hsu Ying Shan Mike Zheng Shou VGen 37 34 0 15 Jan 2024
Towards Robust Multimodal Prompting With Missing Modalities Jaehyuk Jang Yooseung Wang Changick Kim VLM 30 10 0 26 Dec 2023
Parrot Captions Teach CLIP to Spot Text Yiqi Lin Conghui He Alex Jinpeng Wang Bin Wang Weijia Li Mike Zheng Shou 36 7 0 21 Dec 2023
A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models Julio Silva-Rodríguez Sina Hajimiri Ismail Ben Ayed Jose Dolz VLM 26 27 0 20 Dec 2023
UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic Cross-modal Learnable Prompts Chenlu Zhan Yufei Zhang Yu Lin Gaoang Wang Hongwei Wang VLM MedIm 30 5 0 18 Dec 2023
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment Xiaoxu Xu Yitian Yuan Qiudan Zhang Wen-Bin Wu Zequn Jie Lin Ma Xu Wang 56 4 0 15 Dec 2023
TransMed: Large Language Models Enhance Vision Transformer for Biomedical Image Classification Kaipeng Zheng Weiran Huang Lichao Sun LM&MA MedIm VLM 29 0 0 12 Dec 2023
Diversified in-domain synthesis with efficient fine-tuning for few-shot classification Victor G. Turrisi da Costa Nicola Dall’Asen Yiming Wang N. Sebe Elisa Ricci 43 3 0 05 Dec 2023
Prompting Disentangled Embeddings for Knowledge Graph Completion with Pre-trained Language Model Yuxia Geng Jiaoyan Chen Yuhang Zeng Zhuo Chen Wen Zhang Jeff Z. Pan Yuxiang Wang Xiaoliang Xu 42 2 0 04 Dec 2023
Raising the Bar of AI-generated Image Detection with CLIP D. Cozzolino Giovanni Poggi Riccardo Corvi Matthias Nießner L. Verdoliva VLM 26 74 0 30 Nov 2023
Conditional Prompt Tuning for Multimodal Fusion Ruixia Jiang Lingbo Liu Changwen Chen 22 0 0 28 Nov 2023
CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts Yichao Cai Yuhang Liu Zhen Zhang Javen Qinfeng Shi CLIP VLM 31 5 0 28 Nov 2023
C-SAW: Self-Supervised Prompt Learning for Image Generalization in Remote Sensing Avigyan Bhattacharya Mainak Singha Ankit Jha Biplab Banerjee SSL VLM 26 6 0 27 Nov 2023
Source-Free Domain Adaptation with Frozen Multimodal Foundation Model Song Tang Wenxin Su Mao Ye Xiatian Zhu VLM 33 21 0 27 Nov 2023
Choosing Wisely and Learning Deeply: Selective Cross-Modality Distillation via CLIP for Domain Generalization Jixuan Leng Yijiang Li Haohan Wang VLM 31 0 0 26 Nov 2023