Multi-Speaker ASR Combining Non-Autoregressive Conformer CTC and Conditional Speaker Chain

16 June 2021

Lei Xie

Papers citing "Multi-Speaker ASR Combining Non-Autoregressive Conformer CTC and Conditional Speaker Chain"

34 / 34 papers shown

Title
Intermediate Loss Regularization for CTC-based Speech Recognition Jaesong Lee Shinji Watanabe 122 135 0 05 Feb 2021
CASS-NAT: CTC Alignment-based Single Step Non-autoregressive Transformer for Speech Recognition Ruchao Fan Wei Chu Peng Chang Jing Xiao 31 36 0 28 Oct 2020
Recent Developments on ESPnet Toolkit Boosted by Conformer Pengcheng Guo Florian Boyer Xuankai Chang Tomoki Hayashi Yosuke Higuchi ... Jing Shi Shinji Watanabe Kun Wei Wangyou Zhang Yuekai Zhang 57 263 0 26 Oct 2020
Improved Mask-CTC for Non-Autoregressive End-to-End ASR Yosuke Higuchi Hirofumi Inaguma Shinji Watanabe Tetsuji Ogawa Tetsunori Kobayashi 46 61 0 26 Oct 2020
Align-Refine: Non-Autoregressive Speech Recognition via Iterative Realignment Ethan A. Chi Julian Salazar Katrin Kirchhoff AI4TS 45 51 0 24 Oct 2020
Sequence to Multi-Sequence Learning via Conditional Chain Mapping for Mixture Signals Jing Shi Xuankai Chang Pengcheng Guo Shinji Watanabe Yusuke Fujita Jiaming Xu Bo Xu Lei Xie 54 21 0 25 Jun 2020
Speaker-Conditional Chain Model for Speech Separation and Extraction Jing Shi Jiaming Xu Yusuke Fujita Shinji Watanabe Bo Xu BDL 53 20 0 25 Jun 2020
Joint Speaker Counting, Speech Recognition, and Speaker Identification for Overlapped Speech of Any Number of Speakers Naoyuki Kanda Yashesh Gaur Xiaofei Wang Zhong Meng Zhuo Chen Tianyan Zhou Takuya Yoshioka 41 77 0 19 Jun 2020
Neural Speaker Diarization with Speaker-Wise Chain Rule Yusuke Fujita Shinji Watanabe Shota Horiguchi Yawen Xue Jing Shi Kenji Nagamatsu 48 44 0 02 Jun 2020
Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict Yosuke Higuchi Shinji Watanabe Nanxin Chen Tetsuji Ogawa Tetsunori Kobayashi 42 137 0 18 May 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 205 3,082 0 16 May 2020
Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech Recognition Zhengkun Tian Jiangyan Yi J. Tao Ye Bai Shuai Zhang Zhengqi Wen 54 54 0 16 May 2020
Non-Autoregressive Machine Translation with Latent Alignments Chitwan Saharia William Chan Saurabh Saxena Mohammad Norouzi 38 158 0 16 Apr 2020
Imputer: Sequence Modelling via Imputation and Dynamic Programming William Chan Chitwan Saharia Geoffrey E. Hinton Mohammad Norouzi Navdeep Jaitly BDL AI4TS 42 114 0 20 Feb 2020
End-to-End Multi-speaker Speech Recognition with Transformer Xuankai Chang Wangyou Zhang Y. Qian Jonathan Le Roux Shinji Watanabe ViT 51 104 0 10 Feb 2020
Semi-Autoregressive Training Improves Mask-Predict Decoding Marjan Ghazvininejad Omer Levy Luke Zettlemoyer 52 71 0 23 Jan 2020
End-to-end training of time domain audio separation and recognition Thilo von Neumann K. Kinoshita Lukas Drude Christoph Boeddeker Marc Delcroix Tomohiro Nakatani Reinhold Haeb-Umbach 52 34 0 18 Dec 2019
A Comparative Study on Transformer vs RNN in Speech Applications Shigeki Karita Nanxin Chen Tomoki Hayashi Takaaki Hori Hirofumi Inaguma ... Ryuichi Yamamoto Xiao-fei Wang Shinji Watanabe Takenori Yoshimura Wangyou Zhang 63 718 0 13 Sep 2019
WHAM!: Extending Speech Separation to Noisy Environments Gordon Wichern J. Antognini Michael Flynn Licheng Richard Zhu E. McQuinn Dwight Crow Ethan Manilow Jonathan Le Roux 80 343 0 02 Jul 2019
Levenshtein Transformer Jiatao Gu Changhan Wang Jake Zhao 105 359 0 27 May 2019
Analysis of Deep Clustering as Preprocessing for Automatic Speech Recognition of Sparsely Overlapping Speech T. Menne Ilya Sklyar Ralf Schluter Hermann Ney 138 35 0 09 May 2019
Insertion Transformer: Flexible Sequence Generation via Insertion Operations Mitchell Stern William Chan J. Kiros Jakob Uszkoreit KELM 68 248 0 08 Feb 2019
End-to-End Non-Autoregressive Neural Machine Translation with Connectionist Temporal Classification Jindrich Libovický Jindřich Helcl 53 167 0 12 Nov 2018
End-to-End Monaural Multi-speaker ASR System without Pretraining Xuankai Chang Y. Qian Yi Liang Deming Chen 55 76 0 05 Nov 2018
A Purely End-to-end System for Multi-speaker Speech Recognition Hiroshi Seki Takaaki Hori Shinji Watanabe Jonathan Le Roux J. Hershey 42 86 0 15 May 2018
ESPnet: End-to-End Speech Processing Toolkit Shinji Watanabe Takaaki Hori Shigeki Karita Tomoki Hayashi Jiro Nishitoba ... Jahn Heymann Sanjeev Khudanpur Nanxin Chen Adithya Renduchintala Tsubasa Ochiai VLM 89 1,492 0 30 Mar 2018
Deterministic Non-Autoregressive Neural Sequence Modeling by Iterative Refinement Jason D. Lee Elman Mansimov Kyunghyun Cho DiffM BDL 58 455 0 19 Feb 2018
Non-Autoregressive Neural Machine Translation Jiatao Gu James Bradbury Caiming Xiong Victor O.K. Li R. Socher 89 793 0 07 Nov 2017
Single-Channel Multi-talker Speech Recognition with Permutation Invariant Training Y. Qian Xuankai Chang Dong Yu 25 79 0 19 Jul 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 526 129,831 0 12 Jun 2017
Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning Suyoun Kim Takaaki Hori Shinji Watanabe 63 921 0 21 Sep 2016
Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation Dong Yu Morten Kolbæk Zheng-Hua Tan Jesper Jensen 87 854 0 01 Jul 2016
Deep clustering: Discriminative embeddings for segmentation and separation J. Hershey Zhuo Chen Jonathan Le Roux Shinji Watanabe 60 1,316 0 18 Aug 2015
Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau Kyunghyun Cho Yoshua Bengio AIMat 427 27,205 0 01 Sep 2014