End-to-End Multi-speaker Speech Recognition with Transformer

End-to-End Multi-speaker Speech Recognition with Transformer

10 February 2020

Wangyou Zhang

Jonathan Le Roux

Shinji Watanabe

Papers citing "End-to-End Multi-speaker Speech Recognition with Transformer"

18 / 18 papers shown

Title
A multilevel approach to accelerate the training of Transformers Guillaume Lauga Maël Chaumette Edgar Desainte-Maréville Étienne Lasalle Arthur Lebeurrier AI4CE 40 0 0 24 Apr 2025
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC Jiawen Kang Lingwei Meng Mingyu Cui Yuejiao Wang Xixin Wu Xunying Liu Helen Meng 41 2 0 19 Sep 2024
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions Lingwei Meng Shujie Hu Jiawen Kang Zhaoqing Li Yuejiao Wang Wenxuan Wu Xixin Wu Xunying Liu Helen Meng AuLLM 70 2 0 13 Sep 2024
SA-SOT: Speaker-Aware Serialized Output Training for Multi-Talker ASR Zhiyun Fan Linhao Dong Jun Zhang Lu Lu Zejun Ma 43 5 0 04 Mar 2024
Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition Peng Shen Xugang Lu Hisashi Kawai 27 1 0 18 Dec 2023
SURT 2.0: Advances in Transducer-based Multi-talker Speech Recognition Desh Raj Daniel Povey Sanjeev Khudanpur VLM 26 9 0 18 Jun 2023
Deep neural network techniques for monaural speech enhancement: state of the art analysis P. Ochieng 28 21 0 01 Dec 2022
Speaker Reinforcement Using Target Source Extraction for Robust Automatic Speech Recognition Catalin Zorila R. Doddipatla 16 11 0 09 May 2022
End-to-end multi-talker audio-visual ASR using an active speaker attention module R. Rose Olivier Siohan 11 3 0 01 Apr 2022
End-to-End Multi-speaker ASR with Independent Vector Analysis Robin Scheibler Wangyou Zhang Xuankai Chang Shinji Watanabe Y. Qian 18 2 0 01 Apr 2022
VarArray: Array-Geometry-Agnostic Continuous Speech Separation Takuya Yoshioka Xiaofei Wang Dongmei Wang M. Tang Zirun Zhu Zhuo Chen Naoyuki Kanda 17 37 0 12 Oct 2021
A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio Naoyuki Kanda Xiong Xiao Jian Wu Tianyan Zhou Yashesh Gaur Xiaofei Wang Zhong Meng Zhuo Chen Takuya Yoshioka 19 14 0 06 Jul 2021
MOTR: End-to-End Multiple-Object Tracking with Transformer Fangao Zeng Bin Dong Cheng Chen Tiancai Wang Xinming Zhang Yichen Wei VOT 24 499 0 07 May 2021
End-to-End Dereverberation, Beamforming, and Speech Recognition with Improved Numerical Stability and Advanced Frontend Wangyou Zhang Christoph Boeddeker Shinji Watanabe Tomohiro Nakatani Marc Delcroix K. Kinoshita Tsubasa Ochiai Naoyuki Kamo Reinhold Haeb-Umbach Y. Qian 12 32 0 23 Feb 2021
Deep Learning based Multi-Source Localization with Source Splitting and its Effectiveness in Multi-Talker Speech Recognition Aswin Shanmugam Subramanian Chao Weng Shinji Watanabe Meng Yu Dong Yu 18 78 0 16 Feb 2021
Attention is All You Need in Speech Separation Cem Subakan Mirco Ravanelli Samuele Cornell Mirko Bronzi Jianyuan Zhong 27 536 0 25 Oct 2020
End-to-End Neural Speaker Diarization with Self-attention Yusuke Fujita Naoyuki Kanda Shota Horiguchi Yawen Xue Kenji Nagamatsu Shinji Watanabe 187 237 0 13 Sep 2019
Effective Approaches to Attention-based Neural Machine Translation Thang Luong Hieu H. Pham Christopher D. Manning 218 7,926 0 17 Aug 2015