CLIP-Adapter: Better Vision-Language Models with Feature Adapters

9 October 2021

Yu Qiao

Papers citing "CLIP-Adapter: Better Vision-Language Models with Feature Adapters"

40 / 640 papers shown

Title
Pro-tuning: Unified Prompt Tuning for Vision Tasks Xing Nie Bolin Ni Jianlong Chang Gaomeng Meng Chunlei Huo Zhaoxiang Zhang Shiming Xiang Qi Tian Chunhong Pan AAML VPVLM VLM 26 69 0 28 Jul 2022
Visual Recognition by Request Chufeng Tang Lingxi Xie Xiaopeng Zhang Xiaolin Hu Qi Tian VLM 16 15 0 28 Jul 2022
Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification Renrui Zhang Zhang Wei Rongyao Fang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 24 292 0 19 Jul 2022
Zero-Shot Temporal Action Detection via Vision-Language Prompting Sauradip Nag Xiatian Zhu Yi-Zhe Song Tao Xiang VLM 33 65 0 17 Jul 2022
Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models Rui Qian Yeqing Li Zheng Xu Ming Yang Serge J. Belongie Huayu Chen VLM 33 22 0 15 Jul 2022
Contrastive Adapters for Foundation Model Group Robustness Michael Zhang Christopher Ré VLM 18 61 0 14 Jul 2022
Can Language Understand Depth? Renrui Zhang Ziyao Zeng Ziyu Guo Yafeng Li VLM MDE 33 71 0 03 Jul 2022
CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal Pose Xu Zhang Wen Wang Zhe Chen Yufei Xu Jing Zhang Dacheng Tao CLIP VLM 16 25 0 23 Jun 2022
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations Ximeng Sun Ping Hu Kate Saenko VLM 33 119 0 20 Jun 2022
MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge Linxi Fan Guanzhi Wang Yunfan Jiang Ajay Mandlekar Yuncong Yang Haoyi Zhu Andrew Tang De-An Huang Yuke Zhu Anima Anandkumar LM&Ro 48 348 0 17 Jun 2022
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning Yi-Lin Sung Jaemin Cho Joey Tianyi Zhou VLM 21 236 0 13 Jun 2022
GLIPv2: Unifying Localization and Vision-Language Understanding Haotian Zhang Pengchuan Zhang Xiaowei Hu Yen-Chun Chen Liunian Harold Li Xiyang Dai Lijuan Wang Lu Yuan Jenq-Neng Hwang Jianfeng Gao ObjD VLM 19 290 0 12 Jun 2022
Masked Unsupervised Self-training for Label-free Image Classification Junnan Li Silvio Savarese Steven C. H. Hoi VLM SSL 15 12 0 07 Jun 2022
OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression Wanhua Li Xiaoke Huang Zheng Hua Zhu Yansong Tang Xiu Li Jie Zhou Jiwen Lu 25 31 0 06 Jun 2022
Delving into the Openness of CLIP Shuhuai Ren Lei Li Xuancheng Ren Guangxiang Zhao Xu Sun VLM 22 13 0 04 Jun 2022
Prompt-aligned Gradient for Prompt Tuning Beier Zhu Yulei Niu Yucheng Han Yuehua Wu Hanwang Zhang VLM 186 271 0 30 May 2022
Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt Jiangmeng Li Wenyi Mo Jingyao Wang Bing-Huang Su Changwen Zheng Hui Xiong Ji-Rong Wen VLM 16 0 0 23 May 2022
Vision Transformer Adapter for Dense Predictions Zhe Chen Yuchen Duan Wenhai Wang Junjun He Tong Lu Jifeng Dai Yu Qiao 43 543 0 17 May 2022
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models Chunyuan Li Haotian Liu Liunian Harold Li Pengchuan Zhang J. Aneja ... Ping Jin Houdong Hu Zicheng Liu Yong Jae Lee Jianfeng Gao 29 145 0 19 Apr 2022
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting G. Han Long Chen Jiawei Ma Shiyuan Huang Ramalingam Chellappa Shih-Fu Chang VLM 29 20 0 16 Apr 2022
Unsupervised Prompt Learning for Vision-Language Models Hao Huang Jack Chu Fangyun Wei VPVLM MLLM VLM 38 131 0 07 Apr 2022
"This is my unicorn, Fluffy": Personalizing frozen vision-language representations Niv Cohen Rinon Gal E. Meirom Gal Chechik Y. Atzmon VLM MLLM 53 83 0 04 Apr 2022
Bridge-Prompt: Towards Ordinal Action Understanding in Instructional Videos Muheng Li Lei Chen Yueqi Duan Zhilan Hu Jianjiang Feng Jie Zhou Jiwen Lu 19 75 0 26 Mar 2022
Conditional Prompt Learning for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VLM CLIP VPVLM 32 1,286 0 10 Mar 2022
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time Mitchell Wortsman Gabriel Ilharco S. Gadre Rebecca Roelofs Raphael Gontijo-Lopes ... Hongseok Namkoong Ali Farhadi Y. Carmon Simon Kornblith Ludwig Schmidt MoMe 54 916 1 10 Mar 2022
Prompting Visual-Language Models for Efficient Video Understanding Chen Ju Tengda Han Kunhao Zheng Ya-Qin Zhang Weidi Xie VPVLM VLM 33 363 0 08 Dec 2021
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Jenq-Neng Hwang Kai-Wei Chang Jianfeng Gao ObjD VLM 31 1,018 0 07 Dec 2021
PointCLIP: Point Cloud Understanding by CLIP Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li VLM 3DPC 175 435 0 04 Dec 2021
VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts Longtian Qiu Renrui Zhang Ziyu Guo Wei Zhang Zilu Guo Ziyao Zeng Guangnan Zhang VLM CLIP 26 45 0 04 Dec 2021
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks Xizhou Zhu Jinguo Zhu Hao Li Xiaoshi Wu Xiaogang Wang Hongsheng Li Xiaohua Wang Jifeng Dai 53 129 0 02 Dec 2021
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting Yongming Rao Wenliang Zhao Guangyi Chen Yansong Tang Zheng Zhu Guan Huang Jie Zhou Jiwen Lu VLM CLIP 94 551 0 02 Dec 2021
A Simple Long-Tailed Recognition Baseline via Vision-Language Model Teli Ma Shijie Geng Mengmeng Wang Jing Shao Jiasen Lu Hongsheng Li Peng Gao Yu Qiao VLM 32 46 0 29 Nov 2021
Domain Prompt Learning for Efficiently Adapting CLIP to Unseen Domains X. Zhang S. Gu Yutaka Matsuo Yusuke Iwasawa VLM 38 36 0 25 Nov 2021
Generalized Out-of-Distribution Detection: A Survey Jingkang Yang Kaiyang Zhou Yixuan Li Ziwei Liu 185 879 0 21 Oct 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 345 2,271 0 02 Sep 2021
Dual-stream Network for Visual Recognition Mingyuan Mao Renrui Zhang Honghui Zheng Peng Gao Teli Ma Yan Peng Errui Ding Baochang Zhang Shumin Han ViT 25 63 0 31 May 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 280 3,848 0 18 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 301 3,708 0 11 Feb 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 241 1,919 0 31 Dec 2020
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications Andrew G. Howard Menglong Zhu Bo Chen Dmitry Kalenichenko Weijun Wang Tobias Weyand M. Andreetto Hartwig Adam 3DH 950 20,567 0 17 Apr 2017