MAST: Multiscale Audio Spectrogram Transformers

v1v2 (latest)

MAST: Multiscale Audio Spectrogram Transformers

2 November 2022

ArXiv (abs)PDF HTML

Papers citing "MAST: Multiscale Audio Spectrogram Transformers"

12 / 12 papers shown

Title
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data Sreyan Ghosh Sonal Kumar Zhifeng Kong Rafael Valle Bryan Catanzaro Dinesh Manocha DiffM 111 3 0 02 Oct 2024
MViTv2: Improved Multiscale Vision Transformers for Classification and Detection Yanghao Li Chaoxia Wu Haoqi Fan K. Mangalam Bo Xiong Jitendra Malik Christoph Feichtenhofer ViT 153 693 0 02 Dec 2021
Towards Learning Universal Audio Representations Luyu Wang Pauline Luc Yan Wu Adrià Recasens Lucas Smaira ... Andrew Jaegle Jean-Baptiste Alayrac Sander Dieleman João Carreira Aaron van den Oord SSL 108 71 0 23 Nov 2021
Multiscale Vision Transformers Haoqi Fan Bo Xiong K. Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer ViT 135 1,265 0 22 Apr 2021
An Empirical Study of Training Self-Supervised Vision Transformers Xinlei Chen Saining Xie Kaiming He ViT 159 1,871 0 05 Apr 2021
AST: Audio Spectrogram Transformer Yuan Gong Yu-An Chung James R. Glass ViT 142 883 0 05 Apr 2021
Slow-Fast Auditory Streams For Audio Recognition Evangelos Kazakos Arsha Nagrani Andrew Zisserman Dima Damen 90 68 0 05 Mar 2021
Y-Vector: Multiscale Waveform Encoder for Speaker Embedding Ge Zhu Fei Jiang Z. Duan 58 25 0 24 Oct 2020
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 299 5,849 0 20 Jun 2020
Momentum Contrast for Unsupervised Visual Representation Learning Kaiming He Haoqi Fan Yuxin Wu Saining Xie Ross B. Girshick SSL 213 12,136 0 13 Nov 2019
A multi-device dataset for urban acoustic scene classification A. Mesaros Toni Heittola Tuomas Virtanen 35 381 0 25 Jul 2018
VoxCeleb: a large-scale speaker identification dataset Arsha Nagrani Joon Son Chung Andrew Zisserman 127 2,283 0 26 Jun 2017