Visual Classification via Description from Large Language Models

13 October 2022

Carl Vondrick

Papers citing "Visual Classification via Description from Large Language Models"

50 / 225 papers shown

Title
FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models Mainak Singha Subhankar Roy Sarthak Mehrotra Ankit Jha Moloud Abdar Biplab Banerjee Elisa Ricci VLM VPVLM 119 0 0 29 Apr 2025
FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation Yasser Benigmim Mohammad Fahes Tuan-Hung Vu Andrei Bursuc Raoul de Charette VLM 40 0 0 14 Apr 2025
Generalized Semantic Contrastive Learning via Embedding Side Information for Few-Shot Object Detection Ruoyu Chen Hua Zhang Jingzhi Li Li Liu Zhen Huang Xiaochun Cao 37 0 0 09 Apr 2025
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models Justus Westerhoff Erblina Purellku Jakob Hackstein Jonas Loos Leo Pinetzki Lorenz Hufe AAML 28 0 0 07 Apr 2025
Attributed Synthetic Data Generation for Zero-shot Domain-specific Image Classification Shijian Wang Linxin Song Ryotaro Shimizu M. Goto Hanqian Wu VLM 33 0 0 06 Apr 2025
CrowdVLM-R1: Expanding R1 Ability to Vision Language Model for Crowd Counting using Fuzzy Group Relative Policy Reward Zhiqiang Wang Pengbin Feng Yanbin Lin Shuzhang Cai Zongao Bian Jinghua Yan Xingquan Zhu 34 1 0 31 Mar 2025
Self-Evolving Visual Concept Library using Vision-Language Critics Atharva Sehgal Patrick Yuan Ziniu Hu Yisong Yue Jennifer J. Sun Swarat Chaudhuri VLM 50 0 0 31 Mar 2025
Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability Jianyang Zhang Qianli Luo Guowu Yang Wenjing Yang Weide Liu Guosheng Lin Fengmao Lv 59 0 0 26 Mar 2025
Training-Free Personalization via Retrieval and Reasoning on Fingerprints Deepayan Das Davide Talon Yiming Wang Massimiliano Mancini Elisa Ricci VLM LRM 50 0 0 24 Mar 2025
Compositional Caching for Training-free Open-vocabulary Attribute Detection Marco Garosi Alessandro Conti Gaowen Liu Elisa Ricci Massimiliano Mancini ObjD VLM 55 0 0 24 Mar 2025
TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model Cheng Yang Yang Sui Jinqi Xiao Lingyi Huang Yu Gong ... Jinghua Yan Y. Bai P. Sadayappan Xia Hu Bo Yuan VLM 61 0 0 24 Mar 2025
An Iterative Feedback Mechanism for Improving Natural Language Class Descriptions in Open-Vocabulary Object Detection Louis Y. Kim Michelle Karker Victoria Valledor Seiyoung C. Lee Karl F. Brzoska Margaret Duff Anthony Palladino VLM ObjD 56 0 0 21 Mar 2025
OSLoPrompt: Bridging Low-Supervision Challenges and Open-Set Domain Generalization in CLIP M. Cui Divyam Gupta Mainak Singha Sai Bhargav Rongali Ankit Jha Muhammad Haris Khan Biplab Banerjee VLM 53 1 0 20 Mar 2025
Optimized 3D Gaussian Splatting using Coarse-to-Fine Image Frequency Modulation Umar Farooq Jean-Yves Guillemaut Adrian Hilton M. Volino 3DGS 69 0 0 18 Mar 2025
O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models Ashshak Sharifdeen Muhammad Akhtar Munir Sanoojan Baliah Salman Khan M. H. Khan VLM 54 0 0 15 Mar 2025
TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification Ans Munir Faisal Z. Qureshi M. H. Khan Mohsen Ali VLM 70 0 0 15 Mar 2025
Unlocking Open-Set Language Accessibility in Vision Models Fawaz Sammani Jonas Fischer Nikos Deligiannis VLM 55 0 0 14 Mar 2025
ProAPO: Progressively Automatic Prompt Optimization for Visual Classification Xiangyan Qu Gaopeng Gou Jiamin Zhuang Jing Yu Kun Song Qihao Wang Yili Li Gang Xiong VLM 91 0 0 13 Mar 2025
Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images M. Rahaman Ewan K. A. Millar Erik H. W. Meijering VLM 64 0 0 13 Mar 2025
Interactive Medical Image Analysis with Concept-based Similarity Reasoning Ta Duc Huy Sen Kim Tran Phan Nguyen Nguyen Hoang Tran Tran Bao Sam Anton Van Den Hengel Zhibin Liao Johan W. Verjans Minh Nguyen Nhat To Vu Minh Hieu Phan 53 0 0 10 Mar 2025
Is CLIP ideal? No. Can we fix it? Yes! Raphi Kang Yue Song Georgia Gkioxari Pietro Perona VLM 61 0 0 10 Mar 2025
MADS: Multi-Attribute Document Supervision for Zero-Shot Image Classification Xiangyan Qu Jing Yu Jiamin Zhuang Gaopeng Gou Gang Xiong Qi Wu VLM 51 0 0 10 Mar 2025
AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data Zengqun Zhao Ziquan Liu Yu Cao Shaogang Gong Ioannis Patras 50 0 0 07 Mar 2025
Making Better Mistakes in CLIP-Based Zero-Shot Classification with Hierarchy-Aware Language Prompts Tong Liang Jim Davis VLM 96 0 0 04 Mar 2025
SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection Xin Lin Chong Shi Zuopeng Yang Haojin Tang Zhili Zhou ObjD 33 0 0 01 Mar 2025
InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models Shuchang Zhou Jiwei Wei Shiyuan He Yuyang Zhou Chaoning Zhang Jie Zou Ning Xie Yang Yang VLM VPVLM 81 0 0 27 Feb 2025
Black Sheep in the Herd: Playing with Spuriously Correlated Attributes for Vision-Language Recognition Xinyu Tian Shu Zou Zhaoyuan Yang Mengqi He Jing Zhang VLM 48 0 0 19 Feb 2025
Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning Yuqi Pang Bowen Yang Haoqin Tu Yun Cao Zeyu Zhang LRM MLLM 64 0 0 17 Feb 2025
DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery Utkarsh Mall Cheng Perng Phoo Mia Chiquier Bharath Hariharan Kavita Bala Carl Vondrick 79 1 0 17 Feb 2025
BatStyler: Advancing Multi-category Style Generation for Source-free Domain Generalization Xiusheng Xu Lei Qi Jingyang Zhou Xin Geng TTA 57 0 0 03 Jan 2025
Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition Ethan Baron Idan Tankel Peter Tu Guy Ben-Yosef VLM 84 0 0 18 Dec 2024
How to Merge Your Multimodal Models Over Time? Sebastian Dziadzio Vishaal Udandarao Karsten Roth Ameya Prabhu Zeynep Akata Samuel Albanie Matthias Bethge MoMe 98 3 0 09 Dec 2024
LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation Huadong Tang Youpeng Zhao Y. Huang Min Xu Jun Wang Qiang Wu MLLM VLM 78 0 0 30 Nov 2024
Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot Models Kaican Li Weiyan Xie Yongxiang Huang Didan Deng Lanqing Hong ZeLin Li Ricardo Silva N. Zhang 71 0 0 29 Nov 2024
DoubleCCA: Improving Foundation Model Group Robustness with Random Sentence Embeddings Hong Liu Yitong Lu 78 0 0 25 Nov 2024
Semantic Shield: Defending Vision-Language Models Against Backdooring and Poisoning via Fine-grained Knowledge Alignment Alvi Md Ishmam Christopher Thomas AAML 121 3 0 23 Nov 2024
Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation Yuheng Shi Minjing Dong Chang Xu VLM 43 1 0 14 Nov 2024
Aligning Characteristic Descriptors with Images for Human-Expert-like Explainability Bharat Yalavarthi N. Ratha 35 0 0 06 Nov 2024
Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales Tang Li Mengmeng Ma Xi Peng 45 2 0 31 Oct 2024
EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection Qinqian Lei Bo Wang Robby T. Tan VLM 36 4 0 31 Oct 2024
Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP Chen Huang Skyler Seto Samira Abnar David Grangier Navdeep Jaitly J. Susskind VLM 51 0 0 31 Oct 2024
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization Wanhua Li Zibin Meng Jiawei Zhou D. Wei Chuang Gan Hanspeter Pfister LRM VLM 29 5 0 28 Oct 2024
Scene Graph Generation with Role-Playing Large Language Models Guikun Chen Jin Li Wenguan Wang VLM 48 5 0 20 Oct 2024
Zero-shot Action Localization via the Confidence of Large Vision-Language Models Josiah Aklilu Xiaohan Wang Serena Yeung-Levy 59 1 0 18 Oct 2024
Tree of Attributes Prompt Learning for Vision-Language Models Tong Ding Wanhua Li Zhongqi Miao Hanspeter Pfister VLM 54 1 0 15 Oct 2024
CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection Mingyi Guo Yuyang Liu Zongying Lin Peixi Peng Yonghong Tian Yonghong Tian VLM 30 0 0 08 Oct 2024
Can LLMs plan paths with extra hints from solvers? Erik Wu Sayan Mitra LRM 26 0 0 07 Oct 2024
A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning Niki Maria Foteinopoulou Enjie Ghorbel Djamila Aouada 26 2 0 01 Oct 2024
Finetuning CLIP to Reason about Pairwise Differences Dylan Sam Devin Willmott João Dias Semedo J. Zico Kolter VLM 71 3 0 15 Sep 2024
Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation Hangyu Li Yihan Xu Jiangchao Yao Nannan Wang Xinbo Gao Bo Han 38 0 0 13 Sep 2024