What does a platypus look like? Generating customized prompts for zero-shot image classification

7 September 2022

Papers citing "What does a platypus look like? Generating customized prompts for zero-shot image classification"

42 / 42 papers shown

Title
FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models Mainak Singha Subhankar Roy Sarthak Mehrotra Ankit Jha Moloud Abdar Biplab Banerjee Elisa Ricci VLM VPVLM 119 0 0 29 Apr 2025
Mitigating Cache Noise in Test-Time Adaptation for Large Vision-Language Models Haotian Zhai Xinyu Chen Can Zhang Tianming Sha Ruirui Li BDL VLM 67 0 0 24 Mar 2025
TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification Ans Munir Faisal Z. Qureshi M. H. Khan Mohsen Ali VLM 70 0 0 15 Mar 2025
ProAPO: Progressively Automatic Prompt Optimization for Visual Classification Xiangyan Qu Gaopeng Gou Jiamin Zhuang Jing Yu Kun Song Qihao Wang Yili Li Gang Xiong VLM 89 0 0 13 Mar 2025
A Zero-Shot Learning Approach for Ephemeral Gully Detection from Remote Sensing using Vision Language Models Seyed Mohamad Ali Tousi Ramy M. A. Farag Jacket Demby's Gbenga Omotara John A. Lory Guilherme N. DeSouza 143 0 0 03 Mar 2025
DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery Utkarsh Mall Cheng Perng Phoo Mia Chiquier Bharath Hariharan Kavita Bala Carl Vondrick 73 1 0 17 Feb 2025
DesCLIP: Robust Continual Adaptation via General Attribute Descriptions for Pretrained Vision-Language Models Chiyuan He Zihuan Qiu Fanman Meng Linfeng Xu Q. Wu H. Li VLM CLL KELM 63 0 0 02 Feb 2025
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration Yiwei Guo Shaobin Zhuang Kunchang Li Yu Qiao Yali Wang VLM CLIP 32 0 0 16 Oct 2024
Tree of Attributes Prompt Learning for Vision-Language Models Tong Ding Wanhua Li Zhongqi Miao Hanspeter Pfister VLM 52 1 0 15 Oct 2024
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models Muhammad Jehanzeb Mirza Mengjie Zhao Zhuoyuan Mao Sivan Doveh Wei Lin ... Yuki Mitsufuji Horst Possegger Rogerio Feris Leonid Karlinsky James Glass VLM 84 1 0 08 Oct 2024
Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2 Osher Rafaeli T. Svoray Roni Blushtein-Livnon Ariel Nahlieli VLM 52 10 0 13 Aug 2024
AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation Yuhan Zhu Yuyang Ji Zhiyu Zhao Gangshan Wu Limin Wang VLM 39 7 0 05 Jul 2024
What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models Abdelrahman Abdelhamed Mahmoud Afifi Alec Go MLLM VLM 33 3 0 24 May 2024
Contextual Emotion Recognition using Large Vision Language Models Yasaman Etesam Özge Nilay Yalçin Chuxuan Zhang Angelica Lim VLM 71 3 0 14 May 2024
On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning? Maxime Zanella Ismail Ben Ayed VLM MLLM 50 22 0 03 May 2024
Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models Yifei Ming Yixuan Li VLM 37 7 0 02 May 2024
Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class Mazda Moayeri Michael G. Rabbat Mark Ibrahim Diane Bouchacourt VLM 46 1 0 25 Apr 2024
Data Alignment for Zero-Shot Concept Generation in Dermatology AI S. Gadgil Mahtab Bigverdi MedIm AI4MH VLM 28 0 0 19 Apr 2024
Pre-trained Vision-Language Models Learn Discoverable Visual Concepts Yuan Zang Tian Yun Hao Tan Trung Bui Chen Sun VLM CoGe 50 9 0 19 Apr 2024
Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection Ting Lei Shaofeng Yin Yang Liu VLM 47 9 0 09 Apr 2024
Training-Free Semantic Segmentation via LLM-Supervision Wenfang Sun Yingjun Du Gaowen Liu Ramana Rao Kompella Cees G. M. Snoek VLM 44 2 0 31 Mar 2024
DomainVerse: A Benchmark Towards Real-World Distribution Shifts For Tuning-Free Adaptive Domain Generalization Feng Hou Jin Yuan Ying Yang Yang Liu Yang Zhang Cheng Zhong Zhongchao Shi Jianping Fan Yong Rui Zhiqiang He VLM 51 1 0 05 Mar 2024
A Survey on Open-Set Image Recognition Jiaying Sun Qiulei Dong BDL ObjD 32 3 0 25 Dec 2023
TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing Lianrui Mu Jianhong Bai Xiaoxuan He Jiangnan Ye Xiaoyu Liang Yuchen Yang Jiedong Zhuang Haoji Hu 27 2 0 30 Nov 2023
Open-Set Image Tagging with Multi-Grained Text Supervision Xinyu Huang Yi-Jie Huang Youcai Zhang Weiwei Tian Rui Feng Yuejie Zhang Yanchun Xie Yaqian Li Lei Zhang VLM 25 28 0 23 Oct 2023
Prompting Scientific Names for Zero-Shot Species Recognition Shubham Parashar Zhiqiu Lin Yanan Li Shu Kong VLM 23 12 0 15 Oct 2023
AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation Chaofan Ma Yu-Hao Yang Chen Ju Fei Zhang Ya-Qin Zhang Yanfeng Wang VLM 45 17 0 31 Aug 2023
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners Renrui Zhang Xiangfei Hu Bohao Li Siyuan Huang Hanqiu Deng Hongsheng Li Yu Qiao Peng Gao VLM MLLM 38 170 0 03 Mar 2023
CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets Zachary Novack Julian McAuley Zachary Chase Lipton Saurabh Garg VLM 24 79 0 06 Feb 2023
Objaverse: A Universe of Annotated 3D Objects Matt Deitke Dustin Schwenk Jordi Salvador Luca Weihs Oscar Michel Eli VanderBilt Ludwig Schmidt Kiana Ehsani Aniruddha Kembhavi Ali Farhadi 22 882 0 15 Dec 2022
Language in a Bottle: Language Model Guided Concept Bottlenecks for Interpretable Image Classification Yue Yang Artemis Panagopoulou Shenghao Zhou Daniel Jin Chris Callison-Burch Mark Yatskar 40 211 0 21 Nov 2022
Multimodal Knowledge Alignment with Reinforcement Learning Youngjae Yu Jiwan Chung Heeseung Yun Jack Hessel J. Park ... Prithviraj Ammanabrolu Rowan Zellers Ronan Le Bras Gunhee Kim Yejin Choi VLM 115 36 0 25 May 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 310 4,097 0 24 May 2022
PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts Stephen H. Bach Victor Sanh Zheng-Xin Yong Albert Webson Colin Raffel ... Khalid Almubarak Xiangru Tang Dragomir R. Radev Mike Tian-Jian Jiang Alexander M. Rush VLM 225 338 0 02 Feb 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 358 8,457 0 28 Jan 2022
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 174 402 0 10 Sep 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 330 2,267 0 02 Sep 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 280 3,848 0 18 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 298 3,700 0 11 Feb 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 241 1,918 0 31 Dec 2020
Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference Timo Schick Hinrich Schütze 258 1,588 0 21 Jan 2020
Learning Deep Representations of Fine-grained Visual Descriptions Scott E. Reed Zeynep Akata Bernt Schiele Honglak Lee OCL VLM 170 840 0 17 May 2016