Transformers with convolutional context for ASR

26 April 2019

Luke Zettlemoyer

Papers citing "Transformers with convolutional context for ASR"

48 / 48 papers shown

Title
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities Peng Wang Shijie Wang Junyang Lin Shuai Bai Xiaohuan Zhou Jingren Zhou Xinggang Wang Chang Zhou VLM MLLM ObjD 50 116 0 18 May 2023
Transformers in Speech Processing: A Survey S. Latif Aun Zaidi Heriberto Cuayáhuitl Fahad Shamshad Moazzam Shoukat Junaid Qadir 46 47 0 21 Mar 2023
Multitask Learning for Low Resource Spoken Language Understanding Quentin Meeus Marie-Francine Moens Hugo Van hamme 24 4 0 24 Nov 2022
ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers for Streaming Speech Recognition Martin H. Radfar Rohit Barnwal R. Swaminathan Feng-Ju Chang Grant P. Strimel Nathan Susanj Athanasios Mouchtaris 34 13 0 29 Sep 2022
LegoNN: Building Modular Encoder-Decoder Models Siddharth Dalmia Dmytro Okhonko M. Lewis Sergey Edunov Shinji Watanabe Florian Metze Luke Zettlemoyer Abdel-rahman Mohamed AuLLM MoE 29 14 0 07 Jun 2022
Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition Yuting Yang Binbin Du Yuke Li 26 1 0 24 May 2022
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Jeong Han Ryan T. McDonald Kilian Q. Weinberger Yoav Artzi SyDa 48 38 0 02 May 2022
Self-critical Sequence Training for Automatic Speech Recognition Chen Chen Yuchen Hu Nana Hou Xiaofeng Qi Heqing Zou Chng Eng Siong 27 15 0 13 Apr 2022
A Call for Clarity in Beam Search: How It Works and When It Stops Jungo Kasai Keisuke Sakaguchi Ronan Le Bras Dragomir R. Radev Yejin Choi Noah A. Smith 28 6 0 11 Apr 2022
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition Ye Du Jie Zhang Qiu-shi Zhu Lirong Dai Ming Wu Xin Fang Zhouwang Yang 34 2 0 05 Apr 2022
Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech Translation Chih-Chiang Chang Hung-yi Lee 29 13 0 22 Mar 2022
Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments Mario Esparza 24 0 0 21 Feb 2022
Automatic Speech Recognition Datasets in Cantonese: A Survey and New Dataset Tiezheng Yu Rita Frieske Peng Xu Samuel Cahyawijaya Cheuk Tung Shadow Yiu ... Elham J. Barezi Qifeng Chen Xiaojuan Ma Bertram E. Shi Pascale Fung RALM 47 9 0 07 Jan 2022
Voice Quality and Pitch Features in Transformer-Based Speech Recognition Guillermo Cámbara Jordi Luque Mireia Farrús 27 0 0 21 Dec 2021
BBS-KWS:The Mandarin Keyword Spotting System Won the Video Keyword Wakeup Challenge Yuting Yang Binbin Du Yingxin Zhang Wenxuan Wang Yuke Li 21 0 0 03 Dec 2021
Towards Building ASR Systems for the Next Billion Users Tahir Javed Sumanth Doddapaneni A. Raman Kaushal Bhogale Gowtham Ramesh Anoop Kunchukuttan Pratyush Kumar Mitesh M. Khapra 44 54 0 06 Nov 2021
Visual Keyword Spotting with Attention Prajwal K R Liliane Momeni Triantafyllos Afouras Andrew Zisserman 19 13 0 29 Oct 2021
Discontinuous Grammar as a Foreign Language Daniel Fernández-González Carlos Gómez-Rodríguez 50 9 0 20 Oct 2021
Beyond Isolated Utterances: Conversational Emotion Recognition R. Pappagari Piotr Żelasko Jesús Villalba Laureano Moro-Velazquez Najim Dehak 27 4 0 13 Sep 2021
Relative Positional Encoding for Transformers with Linear Complexity Antoine Liutkus Ondřej Cífka Shih-Lun Wu Umut Simsekli Yi-Hsuan Yang Gaël Richard 38 45 0 18 May 2021
End-to-End Speech Recognition from Federated Acoustic Models Yan Gao Titouan Parcollet Salah Zaiem Javier Fernandez-Marques Pedro Porto Buarque de Gusmão Daniel J. Beutel Nicholas D. Lane 28 43 0 29 Apr 2021
Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning with Self-Knowledge Distillation Md. Akmal Haidar Chao Xing Mehdi Rezagholizadeh 27 7 0 17 Mar 2021
Random Feature Attention Hao Peng Nikolaos Pappas Dani Yogatama Roy Schwartz Noah A. Smith Lingpeng Kong 36 349 0 03 Mar 2021
SparseBERT: Rethinking the Importance Analysis in Self-attention Han Shi Jiahui Gao Xiaozhe Ren Hang Xu Xiaodan Liang Zhenguo Li James T. Kwok 23 54 0 25 Feb 2021
MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition Linghui Meng Jin Xu Xu Tan Jindong Wang Tao Qin Bo Xu VLM 66 77 0 25 Feb 2021
TransMask: A Compact and Fast Speech Separation Model Based on Transformer Zining Zhang Bingsheng He Zhenjie Zhang 36 21 0 19 Feb 2021
BENDR: using transformers and a contrastive self-supervised learning task to learn from massive amounts of EEG data Demetres Kostas Stephane Aroca-Ouellette Frank Rudzicz SSL 54 203 0 28 Jan 2021
End-to-End Speech Recognition and Disfluency Removal Paria Jamshid Lou Mark Johnson 19 32 0 22 Sep 2020
Transformer with Bidirectional Decoder for Speech Recognition Xi Chen Songyang Zhang Dandan Song P. Ouyang Shouyi Yin 18 13 0 11 Aug 2020
Transformer-XL Based Music Generation with Multiple Sequences of Time-valued Notes Xianchao Wu Chengyuan Wang Qinying Lei 22 19 0 11 Jul 2020
Unsupervised Cross-lingual Representation Learning for Speech Recognition Alexis Conneau Alexei Baevski R. Collobert Abdel-rahman Mohamed Michael Auli SSL 70 754 0 24 Jun 2020
Linformer: Self-Attention with Linear Complexity Sinong Wang Belinda Z. Li Madian Khabsa Han Fang Hao Ma 72 1,651 0 08 Jun 2020
Self-Training for End-to-End Speech Translation J. Pino Qiantong Xu Xutai Ma M. Dousti Yun Tang 33 59 0 03 Jun 2020
Streaming Transformer-based Acoustic Models Using Self-attention with Augmented Memory Chunyang Wu Yongqiang Wang Yangyang Shi Ching-Feng Yeh Frank Zhang RALM 31 60 0 16 May 2020
Large scale weakly and semi-supervised learning for low-resource video ASR Kritika Singh Vimal Manohar Alex Xiao Sergey Edunov Ross B. Girshick Vitaliy Liptchinsky Christian Fuegen Yatharth Saraf Geoffrey Zweig Abdel-rahman Mohamed 31 9 0 16 May 2020
Multiresolution and Multimodal Speech Recognition with Transformers Georgios Paraskevopoulos Srinivas Parthasarathy Aparna Khare Shiva Sundaram 25 29 0 29 Apr 2020
Imputer: Sequence Modelling via Imputation and Dynamic Programming William Chan Chitwan Saharia Geoffrey E. Hinton Mohammad Norouzi Navdeep Jaitly BDL AI4TS 21 114 0 20 Feb 2020
End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures Gabriel Synnaeve Qiantong Xu Jacob Kahn Tatiana Likhomanenko Edouard Grave Vineel Pratap Anuroop Sriram Vitaliy Liptchinsky R. Collobert SSL AI4TS 36 246 0 19 Nov 2019
Effectiveness of self-supervised pre-training for speech recognition Alexei Baevski Michael Auli Abdel-rahman Mohamed SSL 27 147 0 10 Nov 2019
A Simplified Fully Quantized Transformer for End-to-end Speech Recognition Alex Bie Bharat Venkitesh João Monteiro Md. Akmal Haidar Mehdi Rezagholizadeh MQ 32 27 0 09 Nov 2019
Transformer-Transducer: End-to-End Speech Recognition with Self-Attention Ching-Feng Yeh Jay Mahadeokar Kaustubh Kalgaonkar Yongqiang Wang Duc Le Mahaveer Jain Kjell Schubert Christian Fuegen M. Seltzer 27 147 0 28 Oct 2019
Generative Pre-Training for Speech with Autoregressive Predictive Coding Yu-An Chung James R. Glass SSL 29 173 0 23 Oct 2019
Deja-vu: Double Feature Presentation and Iterated Loss in Deep Transformer Networks Andros Tjandra Chunxi Liu Frank Zhang Xiaohui Zhang Yongqiang Wang Gabriel Synnaeve Satoshi Nakamura Geoffrey Zweig ViT 25 44 0 23 Oct 2019
Transformer-based Acoustic Modeling for Hybrid Speech Recognition Yongqiang Wang Abdel-rahman Mohamed Duc Le Chunxi Liu Alex Xiao ... Xiaohui Zhang Frank Zhang Christian Fuegen Geoffrey Zweig M. Seltzer 16 248 0 22 Oct 2019
vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations Alexei Baevski Steffen Schneider Michael Auli SSL 22 660 0 12 Oct 2019
Espresso: A Fast End-to-end Neural Speech Recognition Toolkit Yiming Wang Tongfei Chen Hainan Xu Shuoyang Ding Hang Lv Yiwen Shao Nanyun Peng Lei Xie Shinji Watanabe Sanjeev Khudanpur VLM 30 73 0 18 Sep 2019
Towards Better Modeling Hierarchical Structure for Self-Attention with Ordered Neurons Jie Hao Xing Wang Shuming Shi Jinfeng Zhang Zhaopeng Tu 29 12 0 04 Sep 2019
CIF: Continuous Integrate-and-Fire for End-to-End Speech Recognition Linhao Dong Bo Xu 27 125 0 27 May 2019