Vision Language Models Are Few-Shot Audio Spectrogram Classifiers

18 November 2024

Papers citing "Vision Language Models Are Few-Shot Audio Spectrogram Classifiers"

4 / 4 papers shown

Title
Chirp Localization via Fine-Tuned Transformer Model: A Proof-of-Concept Study N. Bahador M. Lankarany 39 0 0 24 Mar 2025
Mellow: a small audio language model for reasoning Soham Deshmukh Satvik Dixit Rita Singh Bhiksha Raj AuLLM ReLM LRM 78 2 0 11 Mar 2025
Harnessing Vision Models for Time Series Analysis: A Survey Jingchao Ni Ziming Zhao ChengAo Shen Hanghang Tong Dongjin Song Wei Cheng Dongsheng Luo Haifeng Chen AI4TS 79 1 0 13 Feb 2025
MACE: Leveraging Audio for Evaluating Audio Captioning Systems Satvik Dixit Soham Deshmukh Bhiksha Raj 32 1 0 01 Nov 2024