ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions

11 July 2024

Papers citing "ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions"

4 / 4 papers shown

Title
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 169 263 0 07 Oct 2022
Simple Pooling Front-ends For Efficient Audio Classification Xubo Liu Haohe Liu Qiuqiang Kong Xinhao Mei Mark D. Plumbley Wenwu Wang 46 16 0 03 Oct 2022
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 332 5,785 0 29 Apr 2021
You Only Look Once: Unified, Real-Time Object Detection Joseph Redmon S. Divvala Ross B. Girshick Ali Farhadi ObjD 292 36,335 0 08 Jun 2015