Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models

5 December 2017

Papers citing "Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models"

46 / 46 papers shown

Title
Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition Ye Bai Jingping Chen Jitong Chen Wei Chen Zhuo Chen ... Wanyi Zhang Yang Zhang Yawei Zhang Yijie Zheng Ming Zou AuLLM 52 19 0 05 Jul 2024
Text Injection for Neural Contextual Biasing Zhong Meng Zelin Wu Rohit Prabhavalkar Cal Peyser Weiran Wang Nanxin Chen Tara N. Sainath Bhuvana Ramabhadran 46 3 0 05 Jun 2024
Massive End-to-end Models for Short Search Queries Weiran Wang Rohit Prabhavalkar Dongseong Hwang Qiujia Li K. Sim ... Zhong Meng CJ Zheng Yanzhang He Tara N. Sainath P. M. Mengibar 32 2 0 22 Sep 2023
Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework Eliya Segev Maya Alroy Ronen Katsir Noam Wies Ayana Shenhav ... D. Zar Oren Tadmor Jacob Bitterman Amnon Shashua Tal Rosenwein 34 2 0 04 Jul 2023
Factual Consistency Oriented Speech Recognition Naoyuki Kanda Takuya Yoshioka Yang Liu 43 0 0 24 Feb 2023
Metric-oriented Speech Enhancement using Diffusion Probabilistic Model Chen Chen Yuchen Hu Weiwei Weng Chng Eng Siong DiffM 43 19 0 23 Feb 2023
JEIT: Joint End-to-End Model and Internal Language Model Training for Speech Recognition Zhong Meng Weiran Wang Rohit Prabhavalkar Tara N. Sainath Tongzhou Chen Ehsan Variani Yu Zhang Bo-wen Li Andrew Rosenberg Bhuvana Ramabhadran AuLLM VLM 36 11 0 16 Feb 2023
Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 32 4 0 07 Dec 2022
Follow the Wisdom of the Crowd: Effective Text Generation via Minimum Bayes Risk Decoding Mirac Suzgun Luke Melas-Kyriazi Dan Jurafsky 35 43 0 14 Nov 2022
Deliberation Networks and How to Train Them Qingyun Dou Mark Gales 24 0 0 06 Nov 2022
Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation Rao Ma Xiaobo Wu Jin Qiu Yanan Qin Haihua Xu Peihao Wu Zejun Ma 32 2 0 02 Nov 2022
JOIST: A Joint Speech and Text Streaming Model For ASR Tara N. Sainath Rohit Prabhavalkar Ankur Bapna Yu Zhang Zhouyuan Huo Zhehuai Chen Bo-wen Li Weiran Wang Trevor Strohman RALM AuLLM 53 35 0 13 Oct 2022
Knowledge Transfer and Distillation from Autoregressive to Non-Autoregressive Speech Recognition Xun Gong Zhikai Zhou Y. Qian 20 3 0 15 Jul 2022
Incorporating Voice Instructions in Model-Based Reinforcement Learning for Self-Driving Cars Mingze Wang Ziyang Zhang Grace Hui Yang 29 1 0 21 Jun 2022
Minimising Biasing Word Errors for Contextual ASR with the Tree-Constrained Pointer Generator Guangzhi Sun C. Zhang P. Woodland 34 14 0 18 May 2022
Improving Rare Word Recognition with LM-aware MWER Training Weiran Wang Tongzhou Chen Tara N. Sainath Ehsan Variani Rohit Prabhavalkar ... S. Mavandadi Cal Peyser Trevor Strohman Yanzhang He David Rybach KELM 40 13 0 15 Apr 2022
Self-critical Sequence Training for Automatic Speech Recognition Chen Chen Yuchen Hu Nana Hou Xiaofeng Qi Heqing Zou Chng Eng Siong 27 15 0 13 Apr 2022
Integrating Lattice-Free MMI into End-to-End Speech Recognition Jinchuan Tian Jianwei Yu Chao Weng Yuexian Zou Dong Yu 35 8 0 29 Mar 2022
RescoreBERT: Discriminative Speech Recognition Rescoring with BERT Liyan Xu Yile Gu J. Kolehmainen Haidar Khan Ankur Gandhe Ariya Rastrow A. Stolcke I. Bulyko 42 46 0 02 Feb 2022
Consistent Training and Decoding For End-to-end Speech Recognition Using Lattice-free MMI Jinchuan Tian Jianwei Yu Chao Weng Shi-Xiong Zhang Dan Su Dong Yu Yuexian Zou AuLLM 45 13 0 05 Dec 2021
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 37 363 0 02 Nov 2021
Efficient Sequence Training of Attention Models using Approximative Recombination Nils-Philipp Wynands Wilfried Michel Jan Rosendahl Ralf Schluter Hermann Ney 13 3 0 18 Oct 2021
Integrating Categorical Features in End-to-End ASR Rongqing Huang 26 1 0 06 Oct 2021
Tied & Reduced RNN-T Decoder Rami Botros Tara N. Sainath R. David Emmanuel Guzman Wei Li Yanzhang He 38 55 0 15 Sep 2021
A study of latent monotonic attention variants Albert Zeyer Ralf Schluter Hermann Ney 24 5 0 30 Mar 2021
Residual Energy-Based Models for End-to-End Speech Recognition Qiujia Li Yu Zhang Bo-wen Li Liangliang Cao P. Woodland 31 13 0 25 Mar 2021
Multi-Channel Automatic Speech Recognition Using Deep Complex Unet Yuxiang Kong Jian Wu Quandong Wang Peng Gao Weiji Zhuang Yujun Wang Lei Xie 15 8 0 18 Nov 2020
Cascaded encoders for unifying streaming and non-streaming ASR A. Narayanan Tara N. Sainath Ruoming Pang Jiahui Yu Chung-Cheng Chiu Rohit Prabhavalkar Ehsan Variani Trevor Strohman AuLLM 8 85 0 27 Oct 2020
Dual-mode ASR: Unify and Improve Streaming ASR with Full-context Modeling Jiahui Yu Wei Han Anmol Gulati Chung-Cheng Chiu Bo-wen Li Tara N. Sainath Yonghui Wu Ruoming Pang 30 18 0 12 Oct 2020
Improving Tail Performance of a Deliberation E2E ASR Model Using a Large Text Corpus Cal Peyser S. Mavandadi Tara N. Sainath J. Apfel Ruoming Pang Shankar Kumar 29 46 0 24 Aug 2020
Efficient minimum word error rate training of RNN-Transducer for end-to-end speech recognition Jinxi Guo Gautam Tiwari J. Droppo Maarten Van Segbroeck Che-Wei Huang A. Stolcke Roland Maas 21 55 0 27 Jul 2020
Class LM and word mapping for contextual biasing in End-to-End ASR Rongqing Huang Ossama Abdel-Hamid Xinwei Li G. Evermann 31 47 0 10 Jul 2020
Early Stage LM Integration Using Local and Global Log-Linear Combination Wilfried Michel Ralf Schluter Hermann Ney 16 11 0 20 May 2020
Improving Proper Noun Recognition in End-to-End ASR By Customization of the MWER Loss Criterion Cal Peyser Tara N. Sainath Golan Pundak 28 13 0 19 May 2020
A Streaming On-Device End-to-End Model Surpassing Server-Side Conventional Model Quality and Latency Tara N. Sainath Yanzhang He Bo-wen Li A. Narayanan Ruoming Pang ... Trevor Strohman Mirkó Visontai Yonghui Wu Yu Zhang Ding Zhao 25 215 0 28 Mar 2020
Deliberation Model Based Two-Pass End-to-End Speech Recognition Ke Hu Tara N. Sainath Ruoming Pang Rohit Prabhavalkar 24 85 0 17 Mar 2020
Small energy masking for improved neural network training for end-to-end speech recognition Chanwoo Kim Kwangyoun Kim S. Indurthi 24 8 0 15 Feb 2020
Minimum Bayes Risk Training of RNN-Transducer for End-to-End Speech Recognition Chao Weng Chengzhu Yu Jia Cui Chunlei Zhang Dong Yu 91 39 0 28 Nov 2019
Discriminative Neural Clustering for Speaker Diarisation Qiujia Li Florian Kreyssig Chao Zhang P. Woodland 11 44 0 22 Oct 2019
Two-Pass End-to-End Speech Recognition Tara N. Sainath Ruoming Pang David Rybach Yanzhang He Rohit Prabhavalkar ... Qiao Liang Trevor Strohman Yonghui Wu Ian McGraw Chung-Cheng Chiu 32 147 0 29 Aug 2019
Listen, Attend, Spell and Adapt: Speaker Adapted Sequence-to-Sequence ASR F. Weninger Jesús Andrés-Ferrer Xinwei Li P. Zhan AI4TS 29 26 0 08 Jul 2019
Word-level Speech Recognition with a Letter to Word Encoder R. Collobert Awni Y. Hannun Gabriel Synnaeve 3DV 27 4 0 10 Jun 2019
Lingvo: a Modular and Scalable Framework for Sequence-to-Sequence Modeling Jonathan Shen Patrick Nguyen Yonghui Wu Zhehuai Chen Mengzhao Chen ... William Chan Shubham Toshniwal Baohua Liao M. Nirschl Pat Rondon VLM 27 209 0 21 Feb 2019
A Fully Differentiable Beam Search Decoder R. Collobert Awni Y. Hannun Gabriel Synnaeve 17 40 0 16 Feb 2019
Chargrid: Towards Understanding 2D Documents Anoop R. Katti C. Reisswig Cordula Guder Sebastian Brarda S. Bickel Johannes Höhne Jean Baptiste Faddoul 26 193 0 24 Sep 2018
RETURNN as a Generic Flexible Neural Toolkit with Application to Translation and Speech Recognition Albert Zeyer Tamer Alkhouli Hermann Ney 37 90 0 14 May 2018