Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset

22 October 2020

Xie Chen

Papers citing "Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset"

32 / 32 papers shown

Title
Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg 23 10 0 27 Dec 2023
Knowledge Distillation from Non-streaming to Streaming ASR Encoder using Auxiliary Non-streaming Layer Kyuhong Shim Jinkyu Lee Simyoung Chang Kyuwoong Hwang 32 2 0 31 Aug 2023
TST: Time-Sparse Transducer for Automatic Speech Recognition Xiaohui Zhang Mangui Liang Zhengkun Tian Jiangyan Yi J. Tao 9 0 0 17 Jul 2023
Reducing the gap between streaming and non-streaming Transducer-based ASR by adaptive two-stage knowledge distillation Haitao Tang Yu Fu Lei Sun Jiabin Xue Dan Liu ... Zhiqiang Ma Minghui Wu Jia Pan Genshun Wan Ming’En Zhao 21 2 0 27 Jun 2023
Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition Systems Mingyu Cui Jiawen Kang Jiajun Deng Xiaoyue Yin Yutao Xie Xie Chen Xunying Liu 27 8 0 23 Jun 2023
Online Transformers with Spiking Neurons for Fast Prosthetic Hand Control Nathan Leroux Jan Finkbeiner Emre Neftci 28 9 0 21 Mar 2023
Transformers in Speech Processing: A Survey S. Latif Aun Zaidi Heriberto Cuayáhuitl Fahad Shamshad Moazzam Shoukat Junaid Qadir 42 47 0 21 Mar 2023
Building High-accuracy Multilingual ASR with Gated Language Experts and Curriculum Training Eric Sun Jinyu Li Yuxuan Hu Yilun Zhu Long Zhou ... Peidong Wang Linquan Liu Shujie Liu Ed Lin Yifan Gong 29 6 0 01 Mar 2023
Self-supervised learning with bi-label masked speech prediction for streaming multi-talker speech recognition Zili Huang Zhuo Chen Naoyuki Kanda Jian Wu Yiming Wang Jinyu Li Takuya Yoshioka Xiaofei Wang Peidong Wang 20 3 0 10 Nov 2022
Streaming, fast and accurate on-device Inverse Text Normalization for Automatic Speech Recognition Yashesh Gaur Nick Kibre Jian Xue Kangyuan Shu Yuhui Wang Issac Alphonso Jinyu Li Jiawei Liu 16 6 0 07 Nov 2022
A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability Jian Xue Peidong Wang Jinyu Li Eric Sun 29 10 0 04 Nov 2022
Minimum Latency Training of Sequence Transducers for Streaming End-to-End Speech Recognition Yusuke Shinohara Shinji Watanabe AI4TS 21 9 0 04 Nov 2022
Streaming Audio-Visual Speech Recognition with Alignment Regularization Pingchuan Ma Niko Moritz Stavros Petridis Christian Fuegen M. Pantic 37 2 0 03 Nov 2022
Variable Attention Masking for Configurable Transformer Transducer Speech Recognition P. Swietojanski Stefan Braun Dogan Can Thiago Fraga da Silva Arnab Ghoshal ... Henry Mason Erik McDermott Honza Silovsky R. Travadi Xiaodan Zhuang 32 13 0 02 Nov 2022
FusionFormer: Fusing Operations in Transformer for Efficient Streaming Speech Recognition Xingcheng Song Di Wu Binbin Zhang Zhiyong Wu Wenpeng Li ... Peng Zhang Zhendong Peng Fuping Pan Changbao Zhu Zhongqin Wu 19 2 0 31 Oct 2022
VarArray Meets t-SOT: Advancing the State of the Art of Streaming Distant Conversational Speech Recognition Naoyuki Kanda Jian Wu Xiaofei Wang Zhuo Chen Jinyu Li Takuya Yoshioka 29 16 0 12 Sep 2022
Streaming Target-Speaker ASR with Neural Transducer Takafumi Moriya Hiroshi Sato Tsubasa Ochiai Marc Delcroix T. Shinozaki 26 21 0 09 Sep 2022
Attention Enhanced Citrinet for Speech Recognition Xianchao Wu 8 1 0 01 Sep 2022
Deep Sparse Conformer for Speech Recognition Xianchao Wu 20 2 0 01 Sep 2022
Improving Streaming End-to-End ASR on Transformer-based Causal Models with Encoder States Revision Strategies Zehan Li Haoran Miao Keqi Deng Gaofeng Cheng Sanli Tian Ta Li Yonghong Yan KELM 19 4 0 06 Jul 2022
Improving Deliberation by Text-Only and Semi-Supervised Training Ke Hu Tara N. Sainath Yanzhang He Rohit Prabhavalkar Trevor Strohman S. Mavandadi Weiran Wang 26 12 0 29 Jun 2022
GateHUB: Gated History Unit with Background Suppression for Online Action Detection Junwen Chen Gaurav Mittal Ye Yu Yu Kong Mei Chen 39 33 0 09 Jun 2022
Large-Scale Streaming End-to-End Speech Translation with Neural Transducers Jian Xue Peidong Wang Jinyu Li Matt Post Yashesh Gaur AI4TS 24 26 0 11 Apr 2022
Points to Patches: Enabling the Use of Self-Attention for 3D Shape Recognition Axel Berg Magnus Oskarsson Mark O'Connor 3DPC ViT 29 26 0 08 Apr 2022
Delta Keyword Transformer: Bringing Transformers to the Edge through Dynamically Pruned Multi-Head Self-Attention Zuzana Jelčicová Marian Verhelst 26 5 0 20 Mar 2022
Improving the fusion of acoustic and text representations in RNN-T Chao Zhang Bo-wen Li Zhiyun Lu Tara N. Sainath Shuo-yiin Chang AI4CE 43 12 0 25 Jan 2022
Streaming Transformer Transducer Based Speech Recognition Using Non-Causal Convolution Yangyang Shi Chunyang Wu Dilin Wang Alex Xiao Jay Mahadeokar ... Ke Li Yuan Shangguan Varun K. Nagaraja Ozlem Kalinli M. Seltzer 30 15 0 07 Oct 2021
Factorized Neural Transducer for Efficient Language Model Adaptation Xie Chen Zhong Meng S. Parthasarathy Jinyu Li 18 39 0 27 Sep 2021
A Survey of Transformers Tianyang Lin Yuxin Wang Xiangyang Liu Xipeng Qiu ViT 32 1,087 0 08 Jun 2021
Hierarchical RNNs-Based Transformers MADDPG for Mixed Cooperative-Competitive Environments Xiaolong Wei Lifang Yang Xianglin Huang Gang Cao Zhulin Tao Zhengyang Du Jing An 21 6 0 11 May 2021
Streaming end-to-end multi-talker speech recognition Liang Lu Naoyuki Kanda Jinyu Li Jiawei Liu 13 41 0 26 Nov 2020
Emformer: Efficient Memory Transformer Based Acoustic Model For Low Latency Streaming Speech Recognition Yangyang Shi Yongqiang Wang Chunyang Wu Ching-Feng Yeh Julian Chan Frank Zhang Duc Le M. Seltzer 56 168 0 21 Oct 2020