CLIP-Adapter: Better Vision-Language Models with Feature Adapters

9 October 2021

Yu Qiao

Papers citing "CLIP-Adapter: Better Vision-Language Models with Feature Adapters"

50 / 640 papers shown

Title
Learning Cross-view Visual Geo-localization without Ground Truth Haoyuan Li Chang Xu Wen Yang Huai Yu Gui-Song Xia 40 8 0 19 Mar 2024
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images Chaoqin Huang Aofan Jiang Jinghao Feng Ya-Qin Zhang Xinchao Wang Yanfeng Wang MedIm 45 25 0 19 Mar 2024
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters Jiazuo Yu Yunzhi Zhuge Lu Zhang Ping Hu Dong Wang Huchuan Lu You He VLM KELM CLL OODD 110 70 0 18 Mar 2024
LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival Yuanxin Zhao Mi Zhang Bingnan Yang Zhan Zhang Jiaju Kang Jianya Gong 35 2 0 16 Mar 2024
Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders Andrew Geng Pin-Yu Chen OODD 19 0 0 16 Mar 2024
Frozen Feature Augmentation for Few-Shot Image Classification Andreas Bär N. Houlsby Mostafa Dehghani Manoj Kumar VLM 29 4 0 15 Mar 2024
GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery Enguang Wang Zhimao Peng Zhengyuan Xie Fei Yang Xialei Liu Ming-Ming Cheng 62 3 0 15 Mar 2024
OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning Lingyi Hong Shilin Yan Renrui Zhang Wanyun Li Xinyu Zhou ... Kaixun Jiang Yiting Chen Jinglun Li Zhaoyu Chen Wenqiang Zhang VLM 34 38 0 14 Mar 2024
CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow Chenbin Pan Burhaneddin Yaman Senem Velipasalar Liu Ren 54 10 0 13 Mar 2024
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation Zicheng Zhang Tong Zhang Yi Zhu Jian-zhuo Liu Xiaodan Liang QiXiang Ye Wei Ke VLM 49 2 0 13 Mar 2024
Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification Long Lan Fengxiang Wang Shuyan Li Xiangtao Zheng Zengmao Wang Xinwang Liu VLM 31 7 0 13 Mar 2024
TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection Hanning Chen Wenjun Huang Yang Ni Sanggeon Yun Fei Wen Hugo Latapie Mohsen Imani ObjD MLLM VLM 37 16 0 12 Mar 2024
Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation Xinyao Li Yuke Li Zhekai Du Fengling Li Ke Lu Jingjing Li VLM 54 4 0 11 Mar 2024
When No-Reference Image Quality Models Meet MAP Estimation in Diffusion Latents Weixia Zhang Dingquan Li Guangtao Zhai Xiaokang Yang Kede Ma 38 1 0 11 Mar 2024
RESTORE: Towards Feature Shift for Vision-Language Prompt Learning Yuncheng Yang Chuyan Zhang Zuopeng Yang Yuting Gao Yulei Qin Ke Li Xing Sun Jie-jin Yang Yun Gu VLM VPVLM 49 0 0 10 Mar 2024
Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning Yi Zhang Ce Zhang VLM 28 1 0 10 Mar 2024
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition Yusheng Dai Hang Chen Jun Du Ruoyu Wang Shihao Chen Jie Ma Haotian Wang Chin-Hui Lee 43 4 0 07 Mar 2024
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models Zheng Li Xiang Li Xinyi Fu Xing Zhang Weiqiang Wang Shuo Chen Jian Yang VLM 39 35 0 05 Mar 2024
Few-shot Learner Parameterization by Diffusion Time-steps Zhongqi Yue Pan Zhou Richang Hong Hanwang Zhang Qianru Sun 36 11 0 05 Mar 2024
Enhancing Vision-Language Pre-training with Rich Supervisions Yuan Gao Kunyu Shi Pengkai Zhu Edouard Belval Oren Nuriel Srikar Appalaraju Shabnam Ghadar Vijay Mahadevan Zhuowen Tu Stefano Soatto VLM CLIP 67 12 0 05 Mar 2024
Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning Shuo Yang Zirui Shang Yongqi Wang Derong Deng Hongwei Chen Qiyuan Cheng Xinxiao Wu VLM 38 6 0 02 Mar 2024
The All-Seeing Project V2: Towards General Relation Comprehension of the Open World Weiyun Wang Yiming Ren Hao Luo Tiantong Li Chenxiang Yan ... Qingyun Li Lewei Lu Xizhou Zhu Yu Qiao Jifeng Dai MLLM 52 47 0 29 Feb 2024
Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model Hao-Ran Cheng Erjia Xiao Jindong Gu Le Yang Jinhao Duan Jize Zhang Jiahang Cao Kaidi Xu Renjing Xu 37 6 0 29 Feb 2024
Percept, Chat, and then Adapt: Multimodal Knowledge Transfer of Foundation Models for Open-World Video Recognition Boyu Chen Siran Chen Kunchang Li Qinglin Xu Yu Qiao Yali Wang 34 3 0 29 Feb 2024
TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding Zhihao Zhang Shengcao Cao Yu-Xiong Wang 38 16 0 28 Feb 2024
Training Neural Networks from Scratch with Parallel Low-Rank Adapters Minyoung Huh Brian Cheung Jeremy Bernstein Phillip Isola Pulkit Agrawal 35 10 0 26 Feb 2024
Grasp, See, and Place: Efficient Unknown Object Rearrangement with Policy Structure Prior Kechun Xu Zhongxiang Zhou Jun Wu Haojian Lu Rong Xiong Yue Wang 40 2 0 23 Feb 2024
CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection Sohail Ahmed Khan Duc-Tien Dang-Nguyen VLM 35 21 0 20 Feb 2024
ISCUTE: Instance Segmentation of Cables Using Text Embedding Shir Kozlovsky O. Joglekar Dotan Di Castro 32 2 0 19 Feb 2024
Any-Shift Prompting for Generalization over Distributions Zehao Xiao Jiayi Shen Mohammad Mahdi Derakhshani Tianran Ouyang Cees G. M. Snoek OOD VPVLM VLM 42 8 0 15 Feb 2024
Quantified Task Misalignment to Inform PEFT: An Exploration of Domain Generalization and Catastrophic Forgetting in CLIP Laura Niss Kevin Vogt-Lowell Theodoros Tsiligkaridis CLL 29 1 0 14 Feb 2024
A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation Zhengbo Wang Jian Liang Lijun Sheng Ran He Zilei Wang Tieniu Tan VLM 27 22 0 06 Feb 2024
CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model Aoran Xiao Weihao Xuan Heli Qi Yun Xing Ruijie Ren Xiaoqin Zhang Ling Shao Shijian Lu VLM MLLM 43 10 0 06 Feb 2024
CLIP Can Understand Depth Dunam Kim Seokju Lee VLM MDE 48 2 0 05 Feb 2024
Cross-modality debiasing: using language to mitigate sub-population shifts in imaging Yijiang Pang Hoang Bao Jiayu Zhou 25 0 0 02 Feb 2024
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors Shiyin Dong Mingrui Zhu Kun Cheng Nannan Wang Xinbo Gao DiffM 30 3 0 29 Jan 2024
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling Xiaoyu Shi Zhaoyang Huang Fu-Yun Wang Weikang Bian Dasong Li ... Ka Chun Cheung Simon See Hongwei Qin Jifeng Da Hongsheng Li VGen DiffM 43 81 0 29 Jan 2024
Data-Free Generalized Zero-Shot Learning Bowen Tang Long Yan Jing Zhang Qian Yu Lu Sheng Dong Xu VLM 36 11 0 28 Jan 2024
SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning Hao Chen Jiaze Wang Ziyu Guo Jinpeng Li Donghao Zhou Bian Wu Chenyong Guan Guangyong Chen Pheng-Ann Heng 30 5 0 22 Jan 2024
ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition Jiaming Zhou Junwei Liang Kun-Yu Lin Jinrui Yang Wei-Shi Zheng VLM 21 8 0 22 Jan 2024
Hierarchical Prompts for Rehearsal-free Continual Learning Yukun Zuo Hantao Yao Lu Yu Liansheng Zhuang Changsheng Xu CLL VLM 24 1 0 21 Jan 2024
Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities Xu Yan Haiming Zhang Yingjie Cai Jingming Guo Weichao Qiu ... Lihui Jiang Wei Zhang Hongbo Zhang Dengxin Dai Bingbing Liu 54 17 0 16 Jan 2024
Towards A Better Metric for Text-to-Video Generation Jay Zhangjie Wu Guian Fang Haoning Wu Xintao Wang Yixiao Ge ... Rui Zhao Weisi Lin Wynne Hsu Ying Shan Mike Zheng Shou VGen 37 34 0 15 Jan 2024
FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos S. DarshanSingh Zeeshan Khan Makarand Tapaswi VLM CLIP 33 3 0 15 Jan 2024
Concept-Guided Prompt Learning for Generalization in Vision-Language Models Yi Zhang Ce Zhang Ke Yu Yushun Tang Zhihai He VLM MLLM 34 20 0 15 Jan 2024
APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning Guiming Cao Kaize Shi Hong Fu Huaiwen Zhang Guandong Xu VLM 31 1 0 12 Jan 2024
CLIP-Driven Semantic Discovery Network for Visible-Infrared Person Re-Identification Xiaoyan Yu Neng Dong Liehuang Zhu Hao Peng Dapeng Tao 33 7 0 11 Jan 2024
Low-Resource Vision Challenges for Foundation Models Yunhua Zhang Hazel Doughty Cees G. M. Snoek VLM 30 5 0 09 Jan 2024
Learning to Prompt Segment Anything Models Jiaxing Huang Kai Jiang Jingyi Zhang Han Qiu Lewei Lu Shijian Lu Eric P. Xing VLM LRM 48 7 0 09 Jan 2024
VLLaVO: Mitigating Visual Gap through LLMs Shuhao Chen Yulong Zhang Weisen Jiang Jiangang Lu Yu Zhang VLM 54 2 0 06 Jan 2024