v1v2 (latest)

Waffling around for Performance: Visual Classification with Random Words and Broad Concepts

12 June 2023

A. Sophia Koepke

ArXiv (abs)PDF HTML Github (57★)

Papers citing "Waffling around for Performance: Visual Classification with Random Words and Broad Concepts"

50 / 57 papers shown

Title
OTFusion: Bridging Vision-only and Vision-Language Models via Optimal Transport for Transductive Zero-Shot Learning Qiyu Xu Wenyang Chen Zhanxuan Hu Huafeng Li Yonghang Tai VLM 24 0 0 16 Jun 2025
CIVET: Systematic Evaluation of Understanding in VLMs Massimo Rizzoli Simone Alghisi Olha Khomyn Gabriel Roccabruna Seyed Mahed Mousavi Giuseppe Riccardi 176 0 0 05 Jun 2025
From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection Lincan Cai Jingxuan Kang Shuang Li Wenxuan Ma Binhui Xie Zhida Qin Jian Liang VLM 92 0 0 19 May 2025
FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation Yasser Benigmim Mohammad Fahes Tuan-Hung Vu Andrei Bursuc Raoul de Charette VLM 149 0 0 14 Apr 2025
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning Chi-Hsi Kung Frangil Ramirez Juhyung Ha Yi-Ting Chen David J. Crandall Yi-Hsuan Tsai 144 1 0 27 Mar 2025
Training-Free Personalization via Retrieval and Reasoning on Fingerprints Deepayan Das Davide Talon Yiming Wang Massimiliano Mancini Elisa Ricci VLM LRM 152 0 0 24 Mar 2025
Compositional Caching for Training-free Open-vocabulary Attribute Detection Marco Garosi Alessandro Conti Gaowen Liu Elisa Ricci Massimiliano Mancini ObjD VLM 105 0 0 24 Mar 2025
ProAPO: Progressively Automatic Prompt Optimization for Visual Classification Xiangyan Qu Gaopeng Gou Jiamin Zhuang Jing Yu Kun Song Qihao Wang Yili Li Gang Xiong VLM 209 1 0 13 Mar 2025
Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images M. Rahaman Ewan K. A. Millar Erik H. W. Meijering VLM 117 0 0 13 Mar 2025
Towards Locally Explaining Prediction Behavior via Gradual Interventions and Measuring Property Gradients Niklas Penzel Joachim Denzler FAtt 92 0 0 07 Mar 2025
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models Kevin Miller Samarth Mishra Aditya Gangrade Kate Saenko Venkatesh Saligrama VLM 92 0 0 24 Feb 2025
Black Sheep in the Herd: Playing with Spuriously Correlated Attributes for Vision-Language Recognition Xinyu Tian Shu Zou Zhaoyuan Yang Mengqi He Jing Zhang VLM 97 0 0 19 Feb 2025
VLG-CBM: Training Concept Bottleneck Models with Vision-Language Guidance Divyansh Srivastava Beatriz Cabrero-Daniel Christian Berger VLM 193 15 0 17 Jan 2025
BatStyler: Advancing Multi-category Style Generation for Source-free Domain Generalization Xiusheng Xu Lei Qi Jingyang Zhou Xin Geng TTA 152 0 0 03 Jan 2025
Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition Ethan Baron Idan Tankel Peter Tu Guy Ben-Yosef VLM 137 0 0 18 Dec 2024
Does VLM Classification Benefit from LLM Description Semantics? Pingchuan Ma Lennart Rietdorf Dmytro Kotovenko Vincent Tao Hu Bjorn Ommer VLM 148 1 0 16 Dec 2024
Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP Yayuan Li Jintao Guo Lei Qi Wenbin Li Yinghuan Shi VLM CLIP 142 0 0 16 Dec 2024
SenCLIP: Enhancing zero-shot land-use mapping for Sentinel-2 with ground-level prompting Pallavi Jain Dino Ienco R. Interdonato Tristan Berchoux Diego Marcos VLM 135 3 0 11 Dec 2024
How to Merge Your Multimodal Models Over Time? Sebastian Dziadzio Vishaal Udandarao Karsten Roth Ameya Prabhu Zeynep Akata Samuel Albanie Matthias Bethge MoMe 205 7 0 09 Dec 2024
CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections Mohamed Fazli Mohamed Imam Rufael Fedaku Marew Jameel Hassan Mustansar Fiaz Alham Fikri Aji Hisham Cholakkal VLM 548 1 0 28 Nov 2024
DoubleCCA: Improving Foundation Model Group Robustness with Random Sentence Embeddings Hong Liu Yitong Lu 201 0 0 25 Nov 2024
Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales Tang Li Mengmeng Ma Xi Peng 107 2 0 31 Oct 2024
Tree of Attributes Prompt Learning for Vision-Language Models Tong Ding Wanhua Li Zhongqi Miao Hanspeter Pfister VLM 171 1 0 15 Oct 2024
LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts Anh-Quan Cao M. Jaritz Matthieu Guillaumin Raoul de Charette Loris Bazzani VLM CLIP 108 2 0 10 Oct 2024
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models Muhammad Jehanzeb Mirza Mengjie Zhao Zhuoyuan Mao Sivan Doveh Wei Lin ... Yuki Mitsufuji Horst Possegger Rogerio Feris Leonid Karlinsky James Glass VLM 228 1 0 08 Oct 2024
Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning Minheng Ni Yutao Fan Lei Zhang Wangmeng Zuo LRM AI4CE 68 12 0 04 Oct 2024
A sound description: Exploring prompt templates and class descriptions to enhance zero-shot audio classification Michel Olvera Paraskevas Stamatiadis S. Essid VLM 81 1 0 19 Sep 2024
Text-Enhanced Zero-Shot Action Recognition: A training-free approach Massimo Bosetti Shibingfeng Zhang Bendetta Liberatori Giacomo Zara Elisa Ricci Paolo Rota VLM 98 0 0 29 Aug 2024
Efficient Test-Time Prompt Tuning for Vision-Language Models Yuhan Zhu Guozhen Zhang Chen Xu Haocheng Shen Xiaoxin Chen Gangshan Wu Limin Wang VLM 99 2 0 11 Aug 2024
Visual-Semantic Decomposition and Partial Alignment for Document-based Zero-Shot Learning Xiangyang Qu Jing Yu Keke Gai Jiamin Zhuang Yuanmin Tang Gang Xiong Gaopeng Gou Qi Wu 102 3 0 22 Jul 2024
Open Vocabulary Multi-Label Video Classification Rohit Gupta Mamshad Nayeem Rizve Jayakrishnan Unnikrishnan Ashish Tawari Son Tran Mubarak Shah Benjamin Z. Yao Trishul Chilimbi VLM 104 1 0 12 Jul 2024
AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation Yuhan Zhu Yuyang Ji Zhiyu Zhao Gangshan Wu Limin Wang VLM 97 8 0 05 Jul 2024
Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models Jinhao Li Haopeng Li S. Erfani Lei Feng James Bailey Feng Liu VLM 108 6 0 05 Jun 2024
SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection Mingxuan Liu Tyler L. Hayes Elisa Ricci G. Csurka Riccardo Volpi ObjD 116 3 0 16 May 2024
Mind the Gap Between Synthetic and Real: Utilizing Transfer Learning to Probe the Boundaries of Stable Diffusion Generated Data Leonhard Hennicke C. Adriano Holger Giese Jan Mathias Koehler Lukas Schott DiffM 112 2 0 06 May 2024
Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class Mazda Moayeri Michael G. Rabbat Mark Ibrahim Diane Bouchacourt VLM 88 1 0 25 Apr 2024
Evolving Interpretable Visual Classifiers with Large Language Models Mia Chiquier Utkarsh Mall Carl Vondrick VLM 101 11 0 15 Apr 2024
Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection Ting Lei Shaofeng Yin Yang Liu VLM 115 9 0 09 Apr 2024
Label Propagation for Zero-shot Classification with Vision-Language Models Vladan Stojnić Yannis Kalantidis Giorgos Tolias VLM 81 9 0 05 Apr 2024
Training-Free Semantic Segmentation via LLM-Supervision Wenfang Sun Yingjun Du Gaowen Liu Ramana Rao Kompella Cees G. M. Snoek VLM 103 3 0 31 Mar 2024
If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions Reza Esfandiarpoor Cristina Menghini Stephen H. Bach CoGe VLM 79 12 0 25 Mar 2024
Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs M. Jehanzeb Mirza Leonid Karlinsky Wei Lin Sivan Doveh Jakub Micorek Mateusz Koziñski Hilde Kuhene Horst Possegger VLM MLLM 102 14 0 18 Mar 2024
PEEB: Part-based Image Classifiers with an Explainable and Editable Language Bottleneck Thang M. Pham Peijie Chen Tin Nguyen Seunghyun Yoon Trung Bui Peijie Chen VLM 117 9 0 08 Mar 2024
Any-Shift Prompting for Generalization over Distributions Zehao Xiao Jiayi Shen Mohammad Mahdi Derakhshani Tianran Ouyang Cees G. M. Snoek OOD VPVLM VLM 120 10 0 15 Feb 2024
Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap Christopher Liao Christian So Theodoros Tsiligkaridis Brian Kulis 95 0 0 06 Feb 2024
Learning to Prompt with Text Only Supervision for Vision-Language Models Muhammad Uzair Khattak Muhammad Ferjad Naeem Muzammal Naseer Luc Van Gool F. Tombari VLM VPVLM 97 22 0 04 Jan 2024
ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models Xinyu Tian Shu Zou Zhaoyuan Yang Jing Zhang VLM 95 25 0 27 Nov 2023
Descriptor and Word Soups: Overcoming the Parameter Efficiency Accuracy Tradeoff for Out-of-Distribution Few-shot Learning Christopher Liao Theodoros Tsiligkaridis Brian Kulis OODD 111 5 0 21 Nov 2023
LLMs as Visual Explainers: Advancing Image Classification with Evolving Visual Descriptions Songhao Han Le Zhuo Yue Liao Si Liu VLM 95 15 0 20 Nov 2023
From Categories to Classifier: Name-Only Continual Learning by Exploring the Web Ameya Prabhu Hasan Hammoud Ser-Nam Lim Guohao Li Philip Torr Adel Bibi CLL 194 8 0 19 Nov 2023