Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling

6 November 2021

Yu Qiao

Papers citing "Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling"

50 / 86 papers shown

Title
$Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization$ Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ ual- $\mathbf{\texttt{H}}$ ead $\mathbf{\texttt{O}}$ ptimization Seongjae Kang Dong Bok Lee Hyungjoon Jang Sung Ju Hwang VLM 54 0 0 12 May 2025
Enhancing Target-unspecific Tasks through a Features Matrix Fangming Cui Yonggang Zhang Xuan Wang Xinmei Tian Jun Yu AAML 45 0 0 06 May 2025
Saliency-Motion Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation Xiangyu Zheng Wanyun Li Songcheng He Jianping Fan Xiaoqiang Li We Zhang VOS 27 0 0 08 Apr 2025
Mitigating Cache Noise in Test-Time Adaptation for Large Vision-Language Models Haotian Zhai Xinyu Chen Can Zhang Tianming Sha Ruirui Li BDL VLM 65 0 0 24 Mar 2025
InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models Shuchang Zhou Jiwei Wei Shiyuan He Yuyang Zhou Chaoning Zhang Jie Zou Ning Xie Yang Yang VLM VPVLM 81 0 0 27 Feb 2025
QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries N. H. Chapman Feras Dayoub Will N. Browne Christopher F. Lehnert VLM 64 0 0 26 Feb 2025
Do we really have to filter out random noise in pre-training data for language models? Jinghan Ru Yuxin Xie Xianwei Zhuang Yuguo Yin Zhihui Guo Zhiming Liu Qianli Ren Yuexian Zou 83 2 0 10 Feb 2025
Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models Behraj Khan T. Syed 125 1 0 29 Jan 2025
ProKeR: A Kernel Perspective on Few-Shot Adaptation of Large Vision-Language Models Yassir Bendou Amine Ouasfi Vincent Gripon A. Boukhayma VLM 51 0 0 19 Jan 2025
The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better Scott Geng Cheng-Yu Hsieh Vivek Ramanujan Matthew Wallingford Chun-Liang Li Pang Wei Koh Ranjay Krishna DiffM 68 6 0 03 Jan 2025
PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation Ziyao Zeng Jingcheng Ni Daniel Wang Patrick Rim Younjoon Chung Fengyu Yang Byung-Woo Hong A. Wong DiffM MDE 106 2 0 24 Nov 2024
BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models Taha Koleilat Hojat Asgariandehkordi H. Rivaz Yiming Xiao VLM 108 0 0 21 Nov 2024
RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions Ziyao Zeng Yangchao Wu Hyoungseob Park Daniel Wang Fengyu Yang Stefano Soatto Dong Lao Byung-Woo Hong Alex Wong MDE 20 7 0 03 Oct 2024
Self-Masking Networks for Unsupervised Adaptation Alfonso Taboada Warmerdam Mathilde Caron Yuki M. Asano 39 1 0 11 Sep 2024
Training-Free Point Cloud Recognition Based on Geometric and Semantic Information Fusion Yan Chen Di Huang Zhichao Liao Xi Cheng Xinghui Li Lone Zeng 3DPC 46 1 0 07 Sep 2024
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation Xi Chen Haosen Yang Sheng Jin Xiatian Zhu H. Yao VLM 29 3 0 05 Sep 2024
Multi-Modal Adapter for Vision-Language Models Dominykas Seputis Serghei Mihailov Soham Chatterjee Zehao Xiao VLM 24 1 0 03 Sep 2024
Advancing Prompt Learning through an External Layer Fangming Cui Xun Yang Chao Wu Liang Xiao Xinmei Tian VLM 34 1 0 29 Jul 2024
SAFT: Towards Out-of-Distribution Generalization in Fine-Tuning Bac Nguyen Stefan Uhlich Fabien Cardinaux Lukas Mauch Marzieh Edraki Aaron Courville OODD CLL VLM 52 3 0 03 Jul 2024
Open-Vocabulary X-ray Prohibited Item Detection via Fine-tuning CLIP Shuyang Lin Tong Jia Hao Wang Bowen Ma Mingyuan Li Dongyue Chen VLM ObjD 29 0 0 16 Jun 2024
Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling Cristian Rodriguez-Opazo Ehsan Abbasnejad Damien Teney Edison Marrese-Taylor Hamed Damirchi A. Hengel VLM 35 1 0 27 May 2024
Disease-informed Adaptation of Vision-Language Models Jiajin Zhang Ge Wang M. Kalra P. Yan VLM 34 2 0 24 May 2024
What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models Abdelrahman Abdelhamed Mahmoud Afifi Alec Go MLLM VLM 31 3 0 24 May 2024
Improving Continuous Sign Language Recognition with Adapted Image Models Lianyu Hu Tongkai Shi Liqing Gao Zekang Liu Wei Feng VLM 18 5 0 12 Apr 2024
Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation Sina Hajimiri Ismail Ben Ayed Jose Dolz VLM 38 22 0 12 Apr 2024
Training-Free Semantic Segmentation via LLM-Supervision Wenfang Sun Yingjun Du Gaowen Liu Ramana Rao Kompella Cees G. M. Snoek VLM 44 2 0 31 Mar 2024
Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification Long Lan Fengxiang Wang Shuyan Li Xiangtao Zheng Zengmao Wang Xinwang Liu VLM 26 7 0 13 Mar 2024
ISCUTE: Instance Segmentation of Cables Using Text Embedding Shir Kozlovsky O. Joglekar Dotan Di Castro 32 2 0 19 Feb 2024
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling Xiaoyu Shi Zhaoyang Huang Fu-Yun Wang Weikang Bian Dasong Li ... Ka Chun Cheung Simon See Hongwei Qin Jifeng Da Hongsheng Li VGen DiffM 37 80 0 29 Jan 2024
CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios Xiangshuo Qiao Xianxin Li Xiaozhe Qu Jie M. Zhang Yang Liu Yu Luo Cihang Jin Jin Ma VLM 27 0 0 19 Jan 2024
SPIRE: Semantic Prompt-Driven Image Restoration Chenyang Qi Zhengzhong Tu Keren Ye M. Delbracio P. Milanfar Qifeng Chen Hossein Talebi DiffM 23 11 0 18 Dec 2023
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines Hamed Damirchi Cristian Rodriguez-Opazo Ehsan Abbasnejad Damien Teney Javen Qinfeng Shi Stephen Gould A. Hengel VLM 33 0 0 29 Nov 2023
C-SAW: Self-Supervised Prompt Learning for Image Generalization in Remote Sensing Avigyan Bhattacharya Mainak Singha Ankit Jha Biplab Banerjee SSL VLM 19 6 0 27 Nov 2023
ImageBind-LLM: Multi-modality Instruction Tuning Jiaming Han Renrui Zhang Wenqi Shao Peng Gao Peng-Tao Xu ... Yafei Wen Xiaoxin Chen Xiangyu Yue Hongsheng Li Yu Qiao MLLM 37 116 0 07 Sep 2023
Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot Anomaly Localization Hanqiu Deng Zhaoxiang Zhang Jinan Bao Xingyu Li VLM 25 4 0 30 Aug 2023
Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification with Cross-Modal Retrieval Seong-Hoon Eom Namgyu Ho Jaehoon Oh Se-Young Yun CLIP VLM 26 0 0 29 Aug 2023
A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision Julio Silva-Rodríguez H. Chakor Riadh Kobbi Jose Dolz Ismail Ben Ayed VLM MedIm 64 33 0 15 Aug 2023
UP-DP: Unsupervised Prompt Learning for Data Pre-Selection with Vision-Language Models Xin Li Sima Behpour T. Doan Wenbin He Liangke Gou Liu Ren VLM 28 3 0 20 Jul 2023
LPN: Language-guided Prototypical Network for few-shot classification Kaihui Cheng Chule Yang Xiao Liu Naiyang Guan Zhiyuan Wang 34 0 0 04 Jul 2023
Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models Shuo Chen Jindong Gu Zhen Han Yunpu Ma Philip H. S. Torr Volker Tresp VPVLM VLM 32 17 0 03 Jun 2023
Multi-modal Queried Object Detection in the Wild Yifan Xu Mengdan Zhang Chaoyou Fu Peixian Chen Xiaoshan Yang Ke Li Changsheng Xu ObjD VLM 30 30 0 30 May 2023
Do We Really Need a Large Number of Visual Prompts? Youngeun Kim Yuhang Li Abhishek Moitra Ruokai Yin Priyadarshini Panda VLM VPVLM 38 5 0 26 May 2023
Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval Shiyin Dong Mingrui Zhu N. Wang Xinbo Gao VLM 27 3 0 09 May 2023
Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting Syed Talal Wasim Muzammal Naseer Salman Khan F. Khan M. Shah VLM VPVLM 28 73 0 06 Apr 2023
Towards Foundation Models and Few-Shot Parameter-Efficient Fine-Tuning for Volumetric Organ Segmentation Julio Silva-Rodríguez Jose Dolz Ismail Ben Ayed 66 12 0 29 Mar 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li Yu Qiao MLLM 33 739 0 28 Mar 2023
HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models Sha Ning Longtian Qiu Yongfei Liu Xuming He VLM 21 41 0 28 Mar 2023
ViM: Vision Middleware for Unified Downstream Transferring Yutong Feng Biao Gong Jianwen Jiang Yiliang Lv Yujun Shen Deli Zhao Jingren Zhou 32 1 0 13 Mar 2023
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners Renrui Zhang Xiangfei Hu Bohao Li Siyuan Huang Hanqiu Deng Hongsheng Li Yu Qiao Peng Gao VLM MLLM 30 170 0 03 Mar 2023
LMSeg: Language-guided Multi-dataset Segmentation Qiang-feng Zhou Yuang Liu Chaohui Yu Jingliang Li Zhibin Wang Fan Wang VLM 13 18 0 27 Feb 2023