Towards better decoding and language model integration in sequence to sequence models

8 December 2016

Papers citing "Towards better decoding and language model integration in sequence to sequence models"

50 / 84 papers shown

Title
Aligner-Encoders: Self-Attention Transformers Can Be Self-Transducers Adam Stooke Rohit Prabhavalkar K. Sim P. M. Mengibar 39 0 0 06 Feb 2025
Large Language Models for Dysfluency Detection in Stuttered Speech Dominik Wagner Sebastian P. Bayerl Ilja Baumann Korbinian Riedhammer Elmar Nöth Tobias Bocklet 45 4 0 16 Jun 2024
An efficient text augmentation approach for contextualized Mandarin speech recognition Naijun Zheng Xucheng Wan Kai Liu Ziqing Du Zhou Huan 40 1 0 14 Jun 2024
Label Smoothing Improves Machine Unlearning Zonglin Di Zhaowei Zhu Jinghan Jia Jiancheng Liu Zafar Takhirov Bo Jiang Yuanshun Yao Sijia Liu Yang Liu 40 2 0 11 Jun 2024
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition Chen Chen Ruizhe Li Yuchen Hu Sabato Marco Siniscalchi Pin-Yu Chen Ensiong Chng Chao-Han Huck Yang 36 19 0 08 Feb 2024
Massive End-to-end Models for Short Search Queries Weiran Wang Rohit Prabhavalkar Dongseong Hwang Qiujia Li K. Sim ... Zhong Meng CJ Zheng Yanzhang He Tara N. Sainath P. M. Mengibar 32 2 0 22 Sep 2023
Integration of Frame- and Label-synchronous Beam Search for Streaming Encoder-decoder Speech Recognition E. Tsunoo Hayato Futami Yosuke Kashiwagi Siddhant Arora Shinji Watanabe 30 4 0 24 Jul 2023
Large-scale Language Model Rescoring on Long-form Data Tongzhou Chen Cyril Allauzen Yinghui Huang Daniel S. Park David Rybach ... Rodrigo Cabrera Kartik Audhkhasi Bhuvana Ramabhadran Pedro J. Moreno Michael Riley 33 14 0 13 Jun 2023
External Language Model Integration for Factorized Neural Transducers Michael Levit S. Parthasarathy Cem Aksoylar Mohammad Sadegh Rasooli Shuangyu Chang 29 2 0 26 May 2023
CopyNE: Better Contextual ASR by Copying Named Entities Shilin Zhou Zhenghua Li Yu Hong Hao Fei Zhefeng Wang Baoxing Huai 15 6 0 22 May 2023
A Deliberation-based Joint Acoustic and Text Decoder S. Mavandadi Tara N. Sainath Ke Hu Zelin Wu 21 7 0 23 Mar 2023
An Overview on Language Models: Recent Developments and Outlook Chengwei Wei Yun Cheng Wang Bin Wang C.-C. Jay Kuo 27 42 0 10 Mar 2023
Massively Multilingual Shallow Fusion with Large Language Models Ke Hu Tara N. Sainath Bo-wen Li Nan Du Yanping Huang Andrew M. Dai Yu Zhang Rodrigo Cabrera Z. Chen Trevor Strohman 35 13 0 17 Feb 2023
Confidence-Aware Calibration and Scoring Functions for Curriculum Learning Shuang Ao Stefan Rueger Advaith Siddharthan UQCV 34 0 0 29 Jan 2023
Rethinking Label Smoothing on Multi-hop Question Answering Zhangyue Yin Yuxin Wang Xiannian Hu Yiguang Wu Hang Yan Xinyu Zhang Bo Zhao Xuanjing Huang Xipeng Qiu 26 9 0 19 Dec 2022
DC-MBR: Distributional Cooling for Minimum Bayesian Risk Decoding Jianhao Yan Jin Xu Fandong Meng Jie Zhou Yue Zhang 24 3 0 08 Dec 2022
JOIST: A Joint Speech and Text Streaming Model For ASR Tara N. Sainath Rohit Prabhavalkar Ankur Bapna Yu Zhang Zhouyuan Huo Zhehuai Chen Bo-wen Li Weiran Wang Trevor Strohman RALM AuLLM 53 35 0 13 Oct 2022
Contextual Density Ratio for Language Model Biasing of Sequence to Sequence ASR Systems Jesús Andrés-Ferrer Dario Albesano P. Zhan Paul Vozila 16 6 0 29 Jun 2022
Revisiting Label Smoothing and Knowledge Distillation Compatibility: What was Missing? Keshigeyan Chandrasegaran Ngoc-Trung Tran Yunqing Zhao Ngai-man Cheung 86 41 0 29 Jun 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 137 350 0 21 May 2022
Minimising Biasing Word Errors for Contextual ASR with the Tree-Constrained Pointer Generator Guangzhi Sun C. Zhang P. Woodland 32 14 0 18 May 2022
Improving Rare Word Recognition with LM-aware MWER Training Weiran Wang Tongzhou Chen Tara N. Sainath Ehsan Variani Rohit Prabhavalkar ... S. Mavandadi Cal Peyser Trevor Strohman Yanzhang He David Rybach KELM 40 13 0 15 Apr 2022
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition Ye Du Jie Zhang Qiu-shi Zhu Lirong Dai Ming Wu Xin Fang Zhouwang Yang 34 2 0 05 Apr 2022
Learning to segment fetal brain tissue from noisy annotations Davood Karimi C. Rollins C. Velasco-Annis Abdelhakim Ouaalam Ali Gholipour 26 25 0 25 Mar 2022
Reducing Flipping Errors in Deep Neural Networks Xiang Deng Yun Xiao Bo Long Zhongfei Zhang AAML 38 4 0 16 Mar 2022
A Likelihood Ratio based Domain Adaptation Method for E2E Models Chhavi Choudhury Ankur Gandhe Xiaohan Ding I. Bulyko 27 10 0 10 Jan 2022
Structure-Aware Label Smoothing for Graph Neural Networks Yiwei Wang Yujun Cai Keli Zhang Wei Wang Henghui Ding Muhao Chen Jing Tang Bryan Hooi 34 3 0 01 Dec 2021
Iterative Teaching by Label Synthesis Weiyang Liu Zhen Liu Hanchen Wang Liam Paull Bernhard Schölkopf Adrian Weller 48 16 0 27 Oct 2021
Multi-Sentence Resampling: A Simple Approach to Alleviate Dataset Length Bias and Beam-Search Degradation Ivan Provilkov A. Malinin 22 4 0 13 Sep 2021
Self-Attention Channel Combinator Frontend for End-to-End Multichannel Far-field Speech Recognition Rong Gong Carl Quillen D. Sharma Andrew Goderre José Laínez Ljubomir Milanović 39 13 0 10 Sep 2021
To Smooth or Not? When Label Smoothing Meets Noisy Labels Jiaheng Wei Hangyu Liu Tongliang Liu Gang Niu Masashi Sugiyama Yang Liu NoLa 32 69 0 08 Jun 2021
On the limit of English conversational speech recognition Zoltán Tüske G. Saon Brian Kingsbury 22 50 0 03 May 2021
Residual Energy-Based Models for End-to-End Speech Recognition Qiujia Li Yu Zhang Bo-wen Li Liangliang Cao P. Woodland 31 13 0 25 Mar 2021
Learning Word-Level Confidence For Subword End-to-End ASR David Qiu Qiujia Li Yanzhang He Yu Zhang Bo-wen Li ... Deepti Bhatia Wei Li Ke Hu Tara N. Sainath Ian McGraw 32 32 0 11 Mar 2021
CIF-based Collaborative Decoding for End-to-end Contextual Speech Recognition Minglun Han Linhao Dong Shiyu Zhou Bo Xu 15 21 0 17 Dec 2020
A review of on-device fully neural end-to-end automatic speech recognition algorithms Chanwoo Kim Dhananjaya N. Gowda Dongsoo Lee Jiyeon Kim Ankur Kumar Sungsoo Kim Abhinav Garg C. Han 27 27 0 14 Dec 2020
Less Is More: Improved RNN-T Decoding Using Limited Label Context and Path Merging Rohit Prabhavalkar Yanzhang He David Rybach S. Campbell A. Narayanan Trevor Strohman Tara N. Sainath 49 35 0 12 Dec 2020
Label Confusion Learning to Enhance Text Classification Models Biyang Guo Songqiao Han Xiao Han Hailiang Huang Ting Lu 63 67 0 09 Dec 2020
Improving accuracy of rare words for RNN-Transducer through unigram shallow fusion Vijay Ravi Yile Gu Ankur Gandhe Ariya Rastrow Linda Liu Denis Filimonov Scott Novotney I. Bulyko 27 9 0 30 Nov 2020
SoftSeg: Advantages of soft versus binary training for image segmentation C. Gros A. Lemay Julien Cohen-Adad 33 70 0 18 Nov 2020
Internal Language Model Estimation for Domain-Adaptive End-to-End Speech Recognition Zhong Meng S. Parthasarathy Eric Sun Yashesh Gaur Naoyuki Kanda Liang Lu Xie Chen Rui Zhao Jinyu Li Jiawei Liu AuLLM 19 107 0 03 Nov 2020
Multitask Training with Text Data for End-to-End Speech Recognition Peidong Wang Tara N. Sainath Ron J. Weiss 16 27 0 27 Oct 2020
An Investigation of how Label Smoothing Affects Generalization Blair Chen Liu Ziyin Zihao Wang Paul Pu Liang UQCV 21 17 0 23 Oct 2020
A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks Yun Tang J. Pino Changhan Wang Xutai Ma Dmitriy Genzel 26 73 0 21 Oct 2020
Learning Soft Labels via Meta Learning Nidhi Vyas Shreyas Saxena T. Voice NoLa 30 30 0 20 Sep 2020
Label Smoothing and Adversarial Robustness Chaohao Fu Hongbin Chen Na Ruan Weijia Jia AAML 10 12 0 17 Sep 2020
Improving Tail Performance of a Deliberation E2E ASR Model Using a Large Text Corpus Cal Peyser S. Mavandadi Tara N. Sainath J. Apfel Ruoming Pang Shankar Kumar 29 46 0 24 Aug 2020
Distilling the Knowledge of BERT for Sequence-to-Sequence ASR Hayato Futami Hirofumi Inaguma Sei Ueno Masato Mimura S. Sakai Tatsuya Kawahara 24 50 0 09 Aug 2020
Semi-Supervised Learning with Data Augmentation for End-to-End ASR F. Weninger F. Mana R. Gemello Jesús Andrés-Ferrer P. Zhan 25 30 0 27 Jul 2020
Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing Yapeng Tian Dingzeyu Li Chenliang Xu 34 180 0 21 Jul 2020