Conformer: Convolution-augmented Transformer for Speech Recognition

16 May 2020

Papers citing "Conformer: Convolution-augmented Transformer for Speech Recognition"

50 / 1,750 papers shown

Title
Sketchy: Memory-efficient Adaptive Regularization with Frequent Directions Vladimir Feinberg Xinyi Chen Y. Jennifer Sun Rohan Anil Elad Hazan 29 12 0 07 Feb 2023
MAC: A unified framework boosting low resource automatic speech recognition Zeping Min Qian Ge Zhong Li E. Weinan 21 1 0 05 Feb 2023
Efficient Domain Adaptation for Speech Foundation Models Bo Li DongSeon Hwang Zhouyuan Huo Junwen Bai Guru Prakash ... K. Sim Yu Zhang Wei Han Trevor Strohman F. Beaufays AI4CE 51 23 0 03 Feb 2023
FAVOR#: Sharp Attention Kernel Approximations via New Classes of Positive Random Features Valerii Likhosherstov K. Choromanski Kumar Avinava Dubey Frederick Liu Tamás Sarlós Adrian Weller 44 3 0 01 Feb 2023
Alternating Updates for Efficient Transformers Cenk Baykal D. Cutler Nishanth Dikkala Nikhil Ghosh Rina Panigrahy Xin Wang MoE 48 5 0 30 Jan 2023
Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical Distillation Minglun Han Feilong Chen Jing Shi Shuang Xu Bo Xu VLM 46 12 0 30 Jan 2023
Exploring Attention Map Reuse for Efficient Transformer Neural Networks Kyuhong Shim Jungwook Choi Wonyong Sung ViT 28 3 0 29 Jan 2023
Unearthing InSights into Mars: Unsupervised Source Separation with Limited Data Ali Siahkoohi Rudy Morel Maarten V. de Hoop Erwan Allys G. Sainton Taichi Kawamura 47 4 0 27 Jan 2023
CellMix: A General Instance Relationship based Method for Data Augmentation Towards Pathology Image Classification Tianyi Zhang Zhiling Yan Chun Xing Li Nan Ying Y. Lei Yun Feng Yu Zhao Guanglei Zhang 29 2 0 27 Jan 2023
Multilingual Multiaccented Multispeaker TTS with RADTTS Rohan Badlani Rafael Valle Kevin J. Shih J. F. Santos Francesco Ferroni Bryan Catanzaro 16 6 0 24 Jan 2023
Side Eye: Characterizing the Limits of POV Acoustic Eavesdropping from Smartphone Cameras with Rolling Shutters and Movable Lenses Yan Long Pirouz Naghavi Blas Kojusner Kevin R. B. Butler Sara Rampazzi Kevin Fu 29 7 0 24 Jan 2023
Semantic-aware Contrastive Learning for Electroencephalography-to-Text Generation with Curriculum Learning Xiachong Feng Xiaocheng Feng Bing Qin 27 4 0 23 Jan 2023
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition Chao-Han Huck Yang Bo Li Yu Zhang Nanxin Chen Rohit Prabhavalkar Tara N. Sainath Trevor Strohman 19 28 0 19 Jan 2023
Two Stage Contextual Word Filtering for Context bias in Unified Streaming and Non-streaming Transducer Zhanheng Yang Sining Sun Xiong Wang Yike Zhang Long Ma Linfu Xie 26 9 0 17 Jan 2023
BayesSpeech: A Bayesian Transformer Network for Automatic Speech Recognition Will Rieger BDL UQCV 24 0 0 16 Jan 2023
Dual Learning for Large Vocabulary On-Device ASR Cal Peyser Ronny Huang Tara N. Sainath Rohit Prabhavalkar M. Picheny K. Cho SSL 16 1 0 11 Jan 2023
Using External Off-Policy Speech-To-Text Mappings in Contextual End-To-End Automated Speech Recognition David M. Chan Shalini Ghosh Ariya Rastrow Björn Hoffmeister OffRL 18 6 0 06 Jan 2023
Audio-Visual Efficient Conformer for Robust Speech Recognition Maxime Burchi Radu Timofte VLM 19 33 0 04 Jan 2023
Supervised Acoustic Embeddings And Their Transferability Across Languages Sreepratha Ram Hanan Aldarmaki SSL 24 3 0 03 Jan 2023
Sample-Efficient Unsupervised Domain Adaptation of Speech Recognition Systems A case study for Modern Greek Georgios Paraskevopoulos Theodoros Kouzelis Georgios Rouvalis Athanasios Katsamanis Vassilis Katsouros Alexandros Potamianos VLM 38 7 0 31 Dec 2022
Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition Yukun Feng Ming Tu Rui Xia Chuanzeng Huang Yuxuan Wang RALM 48 0 0 30 Dec 2022
Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation Tomer Wullach Shlomo E. Chazan 30 1 0 27 Dec 2022
Alignment Entropy Regularization Ehsan Variani Ke Wu David Rybach Cyril Allauzen Michael Riley 25 0 0 22 Dec 2022
4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict decoders Yui Sudo Muhammad Shakeel Brian Yan Jiatong Shi Shinji Watanabe 30 10 0 21 Dec 2022
$Mu$^{2}$SLAM: Multitask, Multilingual Speech and Language Models$ Mu $^{2}$ SLAM: Multitask, Multilingual Speech and Language Models Yong Cheng Yu Zhang Melvin Johnson Wolfgang Macherey Ankur Bapna 33 8 0 19 Dec 2022
A Review of Speech-centric Trustworthy Machine Learning: Privacy, Safety, and Fairness Tiantian Feng Rajat Hebbar Nicholas Mehlman Xuan Shi Aditya Kommineni and Shrikanth Narayanan 48 31 0 18 Dec 2022
AdaTranS: Adapting with Boundary-based Shrinking for End-to-End Speech Translation Xingshan Zeng Liangyou Li Qun Liu 26 5 0 17 Dec 2022
Fast Entropy-Based Methods of Word-Level Confidence Estimation for End-To-End Automatic Speech Recognition A. Laptev Boris Ginsburg 46 7 0 16 Dec 2022
UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units Hirofumi Inaguma Sravya Popuri Ilia Kulikov Peng-Jen Chen Changhan Wang Yu-An Chung Yun Tang Ann Lee Shinji Watanabe J. Pino 55 53 0 15 Dec 2022
Attention as a Guide for Simultaneous Speech Translation Sara Papi Matteo Negri Marco Turchi 31 30 0 15 Dec 2022
Transformers learn in-context by gradient descent J. Oswald Eyvind Niklasson E. Randazzo João Sacramento A. Mordvintsev A. Zhmoginov Max Vladymyrov MLT 38 451 0 15 Dec 2022
DeFT-AN: Dense Frequency-Time Attentive Network for Multichannel Speech Enhancement Dongheon Lee Jung-Woo Choi 32 25 0 15 Dec 2022
Tackling the Cocktail Fork Problem for Separation and Transcription of Real-World Soundtracks Darius Petermann Gordon Wichern Aswin Shanmugam Subramanian Zhong-Qiu Wang Jonathan Le Roux 27 10 0 14 Dec 2022
TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities Zhe Zhao Yudong Li Cheng-An Hou Jing-xin Zhao Rong Tian ... Xingwu Sun Zhanhui Kang Xiaoyong Du Linlin Shen Kimmo Yan VLM 41 23 0 13 Dec 2022
Direct Speech-to-speech Translation without Textual Annotation using Bottleneck Features Junhui Zhang Junjie Pan Xiang Yin Zejun Ma 29 0 0 12 Dec 2022
Leveraging Modality-specific Representations for Audio-visual Speech Recognition via Reinforcement Learning Chen Chen Yuchen Hu Qiang Zhang Heqing Zou Beier Zhu Eng Siong Chng 33 26 0 10 Dec 2022
OpenPack: A Large-scale Dataset for Recognizing Packaging Works in IoT-enabled Logistic Environments Naoya Yoshimura Jaime Morales T. Maekawa Takahiro Hara 30 19 0 10 Dec 2022
GPU-accelerated Guided Source Separation for Meeting Transcription Desh Raj Daniel Povey Sanjeev Khudanpur 31 35 0 10 Dec 2022
Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 32 4 0 07 Dec 2022
Improved Speech Pre-Training with Supervision-Enhanced Acoustic Unit Pengcheng Li Genshun Wan Fenglin Ding Hang Chen Jianqing Gao Jia Pan Cong Liu SSL 30 1 0 07 Dec 2022
Improved Self-Supervised Multilingual Speech Representation Learning Combined with Auxiliary Language Information Fenglin Ding Genshun Wan Pengcheng Li Jia Pan Cong Liu SSL 27 1 0 07 Dec 2022
Learning the joint distribution of two sequences using little or no paired data Soroosh Mariooryad Matt Shannon Siyuan Ma Tom Bagby David Kao Daisy Stanton Eric Battenberg RJ Skerry-Ryan 35 2 0 06 Dec 2022
Images Speak in Images: A Generalist Painter for In-Context Visual Learning Xinlong Wang Wen Wang Yue Cao Chunhua Shen Tiejun Huang VLM MLLM 66 245 0 05 Dec 2022
LMEC: Learnable Multiplicative Absolute Position Embedding Based Conformer for Speech Recognition Yuguang Yang Yu Pan Jingjing Yin Heng Lu 32 3 0 05 Dec 2022
NBC2: Multichannel Speech Separation with Revised Narrow-band Conformer Changsheng Quan Xiaofei Li 35 2 0 05 Dec 2022
Fast and accurate factorized neural transducer for text adaption of end-to-end speech recognition models Rui Zhao Jian Xue P. Parthasarathy Veljko Miljanic Jinyu Li 21 13 0 05 Dec 2022
Continual Learning for On-Device Speech Recognition using Disentangled Conformers Anuj Diwan Ching-Feng Yeh Wei-Ning Hsu Paden Tomasello Eunsol Choi David Harwath Abdel-rahman Mohamed CLL BDL 35 8 0 02 Dec 2022
SoftCorrect: Error Correction with Soft Detection for Automatic Speech Recognition Yichong Leng Xu Tan Wenjie Liu Kaitao Song Rui Wang Xiang-Yang Li Tao Qin Ed Lin Tie-Yan Liu 36 15 0 02 Dec 2022
Deep neural network techniques for monaural speech enhancement: state of the art analysis P. Ochieng 40 21 0 01 Dec 2022
EURO: ESPnet Unsupervised ASR Open-source Toolkit Dongji Gao Jiatong Shi Shun-Po Chuang Leibny Paola García-Perera Hung-yi Lee Shinji Watanabe Sanjeev Khudanpur 27 8 0 30 Nov 2022