Visual Classification via Description from Large Language Models

13 October 2022

Carl Vondrick

Papers citing "Visual Classification via Description from Large Language Models"

50 / 225 papers shown

Title
Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models Elaine Sui Xiaohan Wang Serena Yeung-Levy VLM 30 5 0 19 Mar 2024
Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs M. Jehanzeb Mirza Leonid Karlinsky Wei Lin Sivan Doveh Jakub Micorek Mateusz Koziñski Hilde Kuhene Horst Possegger VLM MLLM 47 13 0 18 Mar 2024
Just Say the Name: Online Continual Learning with Category Names Only via Data Generation Minhyuk Seo Diganta Misra Seongwon Cho Minjae Lee Jonghyun Choi CLL 37 7 0 16 Mar 2024
Renovating Names in Open-Vocabulary Segmentation Benchmarks Haiwen Huang Songyou Peng Dan Zhang Andreas Geiger VLM 37 3 0 14 Mar 2024
Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework Vu Minh Hieu Phan Yutong Xie Yuankai Qi Lingqiao Liu Liyang Liu Bowen Zhang Zhibin Liao Qi Wu Minh Nguyen Nhat To Johan W. Verjans 70 11 0 12 Mar 2024
Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery Haiyang Zheng Nan Pu Wenjing Li N. Sebe Zhun Zhong 49 7 0 12 Mar 2024
Premonition: Using Generative Models to Preempt Future Data Changes in Continual Learning Mark D Mcdonnell Dong Gong Ehsan Abbasnejad Anton Van Den Hengel VLM DiffM 83 3 0 12 Mar 2024
Zero-Shot ECG Classification with Multimodal Learning and Test-time Clinical Knowledge Enhancement Che Liu Zhongwei Wan Ouyang Cheng Anand Shah Wenjia Bai Rossella Arcucci 42 28 0 11 Mar 2024
DomainVerse: A Benchmark Towards Real-World Distribution Shifts For Tuning-Free Adaptive Domain Generalization Feng Hou Jin Yuan Ying Yang Yang Liu Yang Zhang Cheng Zhong Zhongchao Shi Jianping Fan Yong Rui Zhiqiang He VLM 51 1 0 05 Mar 2024
SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos Yulei Niu Wenliang Guo Long Chen Xudong Lin Shih-Fu Chang 52 9 0 03 Mar 2024
Multi-modal Attribute Prompting for Vision-Language Models Xin Liu Jiamin Wu and Wenfei Yang Xu Zhou Tianzhu Zhang VLM 29 10 0 01 Mar 2024
A SOUND APPROACH: Using Large Language Models to generate audio descriptions for egocentric text-audio retrieval Andreea-Maria Oncescu João F. Henriques Andrew Zisserman Samuel Albanie A. Sophia Koepke 26 5 0 29 Feb 2024
LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors Sheng Jin Xue-Qiu Jiang Jiaxing Huang Lewei Lu Shijian Lu VLM ObjD 34 21 0 07 Feb 2024
Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap Christopher Liao Christian So Theodoros Tsiligkaridis Brian Kulis 36 0 0 06 Feb 2024
Image-Caption Encoding for Improving Zero-Shot Generalization Eric Yang Yu Christopher Liao Sathvik Ravi Theodoros Tsiligkaridis Brian Kulis OODD VLM 21 0 0 05 Feb 2024
Democratizing Fine-grained Visual Recognition with Large Language Models Mingxuan Liu Subhankar Roy Wenjing Li Zhun Zhong N. Sebe Elisa Ricci VLM 42 10 0 24 Jan 2024
The Neglected Tails in Vision-Language Models Shubham Parashar Zhiqiu Lin Tian Liu Xiangjue Dong Yanan Li Deva Ramanan James Caverlee Shu Kong VLM 40 33 0 23 Jan 2024
Colorectal Polyp Segmentation in the Deep Learning Era: A Comprehensive Survey Zhenyu Wu Fengmao Lv Chenglizhao Chen Aimin Hao Shuo Li ELM 33 10 0 22 Jan 2024
Learning to Prompt Segment Anything Models Jiaxing Huang Kai Jiang Jingyi Zhang Han Qiu Lewei Lu Shijian Lu Eric P. Xing VLM LRM 48 7 0 09 Jan 2024
VLLaVO: Mitigating Visual Gap through LLMs Shuhao Chen Yulong Zhang Weisen Jiang Jiangang Lu Yu Zhang VLM 54 2 0 06 Jan 2024
Learning to Prompt with Text Only Supervision for Vision-Language Models Muhammad Uzair Khattak Muhammad Ferjad Naeem Muzammal Naseer Luc Van Gool F. Tombari VLM VPVLM 33 19 0 04 Jan 2024
Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions Oindrila Saha Grant Van Horn Subhransu Maji VLM 45 20 0 04 Jan 2024
Few-shot Adaptation of Multi-modal Foundation Models: A Survey Fan Liu Tianshu Zhang Wenwen Dai Wenwen Cai Wenwen Cai Xiaocong Zhou Delong Chen VLM OffRL 31 23 0 03 Jan 2024
Incorporating Geo-Diverse Knowledge into Prompting for Increased Geographical Robustness in Object Recognition Kyle Buettner Sina Malakouti Xiang Lorraine Li Adriana Kovashka 52 3 0 03 Jan 2024
Revisiting Few-Shot Object Detection with Vision-Language Models Anish Madan Neehar Peri Shu Kong Deva Ramanan VLM 32 6 0 22 Dec 2023
Leveraging Habitat Information for Fine-grained Bird Identification Tin Nguyen Anh Nguyen Anh Nguyen VLM 44 0 0 22 Dec 2023
A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties Junfei Xiao Ziqi Zhou Wenxuan Li Shiyi Lan Jieru Mei Zhiding Yu Alan L. Yuille Yuyin Zhou Cihang Xie VLM 21 1 0 21 Dec 2023
A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models Julio Silva-Rodríguez Sina Hajimiri Ismail Ben Ayed Jose Dolz VLM 26 27 0 20 Dec 2023
Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking Shitong Sun Fanghua Ye Shaogang Gong 26 13 0 14 Dec 2023
Open World Object Detection in the Era of Foundation Models O. Zohar Alejandro Lozano Shelly Goel Serena Yeung Kuan-Chieh Wang VLM 31 9 0 10 Dec 2023
Object Recognition as Next Token Prediction Kaiyu Yue Borchun Chen Jonas Geiping Hengduo Li Tom Goldstein Ser-Nam Lim 40 9 0 04 Dec 2023
Manipulating the Label Space for In-Context Classification Haokun Chen Xu Yang Yuhang Huang Zihan Wu Jing Wang Xin Geng VLM 25 2 0 01 Dec 2023
CLIP-QDA: An Explainable Concept Bottleneck Model Rémi Kazmierczak Eloise Berthier Goran Frehse Gianni Franchi 19 7 0 30 Nov 2023
OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition Tom Tongjia Chen Hongshan Yu Zhengeng Yang Zechuan Li Wei Sun Chen Chen 23 8 0 30 Nov 2023
TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing Lianrui Mu Jianhong Bai Xiaoxuan He Jiangnan Ye Xiaoyu Liang Yuchen Yang Jiedong Zhuang Haoji Hu 27 2 0 30 Nov 2023
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines Hamed Damirchi Cristian Rodriguez-Opazo Ehsan Abbasnejad Damien Teney Javen Qinfeng Shi Stephen Gould Anton Van Den Hengel VLM 44 0 0 29 Nov 2023
Explaining CLIP's performance disparities on data from blind/low vision users Daniela Massiceti Camilla Longden Agnieszka Slowik Samuel Wills Martin Grayson C. Morrison VLM 24 9 0 29 Nov 2023
GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? Wenhao Wu Huanjin Yao Mengxi Zhang Yuxin Song Wanli Ouyang Jingdong Wang VLM 28 29 0 27 Nov 2023
ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models Xinyu Tian Shu Zou Zhaoyuan Yang Jing Zhang VLM 31 22 0 27 Nov 2023
Inferring Latent Class Statistics from Text for Robust Visual Few-Shot Learning Yassir Bendou Vincent Gripon Bastien Pasdeloup G. Lioi Lukas Mauch Fabien Cardinaux G. B. Hacene 28 0 0 24 Nov 2023
Towards Concept-based Interpretability of Skin Lesion Diagnosis using Vision-Language Models Cristiano Patrício Luís F. Teixeira João C. Neves 13 6 0 24 Nov 2023
Compositional Zero-shot Learning via Progressive Language-based Observations Lin Li Guikun Chen Jun Xiao Long Chen 40 7 0 23 Nov 2023
Descriptor and Word Soups: Overcoming the Parameter Efficiency Accuracy Tradeoff for Out-of-Distribution Few-shot Learning Christopher Liao Theodoros Tsiligkaridis Brian Kulis OODD 49 5 0 21 Nov 2023
LLMs as Visual Explainers: Advancing Image Classification with Evolving Visual Descriptions Songhao Han Le Zhuo Yue Liao Si Liu VLM 26 14 0 20 Nov 2023
From Categories to Classifier: Name-Only Continual Learning by Exploring the Web Ameya Prabhu Hasan Hammoud Ser-Nam Lim Guohao Li Philip Torr Adel Bibi CLL 127 9 0 19 Nov 2023
Active Prompt Learning in Vision Language Models Jihwan Bang Sumyeong Ahn Jae-Gil Lee VLM 16 9 0 18 Nov 2023
Representing visual classification as a linear combination of words Shobhit Agarwal Yevgeniy R. Semenov William Lotter 45 1 0 18 Nov 2023
Trustworthy Large Models in Vision: A Survey Ziyan Guo Li Xu Jun Liu MU 66 0 0 16 Nov 2023
Follow-Up Differential Descriptions: Language Models Resolve Ambiguities for Image Classification Reza Esfandiarpoor Stephen H. Bach VLM 32 13 0 10 Nov 2023
ChatGPT-Powered Hierarchical Comparisons for Image Classification Zhiyuan Ren Yiyang Su Xiaoming Liu VLM 40 21 0 01 Nov 2023