Title
The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition Ming Gao Shilong Wu Hang Chen Jun Du Chin-Hui Lee Shinji Watanabe Jingdong Chen Siniscalchi Sabato Marco O. Scharenborg 58 2 0 20 May 2025
Target Speaker ASR with Whisper Alexander Polok Dominik Klement Sanjeev Khudanpur Kevin Duh J. Černocký L. Burget 150 3 0 17 Jan 2025
Guided Speaker Embedding Shota Horiguchi Takafumi Moriya Atsushi Ando Takanori Ashihara Hiroshi Sato Naohiro Tawara Marc Delcroix 91 0 0 03 Jan 2025
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC Jiawen Kang Lingwei Meng Mingyu Cui Yuejiao Wang Xixin Wu Xunying Liu Helen Meng 82 3 0 19 Sep 2024
Recording for Eyes, Not Echoing to Ears: Contextualized Spoken-to-Written Conversion of ASR Transcripts Jiaqing Liu Chong Deng Qinglin Zhang Shilin Zhou Hai Yu Hai Yu Wen Wang 88 0 0 19 Aug 2024
A Real-time Speaker Diarization System Based on Spatial Spectrum Siqi Zheng Weilong Huang Xianliang Wang Hongbin Suo Jinwei Feng Zhijie Yan 40 24 0 20 Jul 2021
Multi-Speaker ASR Combining Non-Autoregressive Conformer CTC and Conditional Speaker Chain Pengcheng Guo Xuankai Chang Shinji Watanabe Lei Xie 29 18 0 16 Jun 2021
AISHELL-4: An Open Source Dataset for Speech Enhancement, Separation, Recognition and Speaker Diarization in Conference Scenario Yihui Fu Luyao Cheng Shubo Lv Yukai Jv Yuxiang Kong ... Jian Wu Hui Bu Xin Xu Jun Du Jingdong Chen 53 95 0 08 Apr 2021
A Review of Speaker Diarization: Recent Advances with Deep Learning Tae Jin Park Naoyuki Kanda Dimitrios Dimitriadis Kyu Jeong Han Shinji Watanabe Shrikanth Narayanan VLM 323 332 0 24 Jan 2021
Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: theory, implementation and analysis on standard tasks Federico Landini Jan Profant Mireia Díez L. Burget 254 207 0 29 Dec 2020
Recent Developments on ESPnet Toolkit Boosted by Conformer Pengcheng Guo Florian Boyer Xuankai Chang Tomoki Hayashi Yosuke Higuchi ... Jing Shi Shinji Watanabe Kun Wei Wangyou Zhang Yuekai Zhang 72 263 0 26 Oct 2020
DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement Yanxin Hu Yun Liu Shubo Lv Mengtao Xing Shimin Zhang Yihui Fu Jian Wu Bihong Zhang Lei Xie 53 591 0 01 Aug 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 223 3,139 0 16 May 2020
CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for Unsegmented Recordings Shinji Watanabe Michael I. Mandel Jon Barker Emmanuel Vincent Ashish Arora ... Emmanuel Vincent Shota Horiguchi Naoyuki Kanda Takuya Yoshioka Neville Ryant 58 306 0 20 Apr 2020
Serialized Output Training for End-to-End Overlapped Speech Recognition Naoyuki Kanda Yashesh Gaur Xiaofei Wang Zhong Meng Takuya Yoshioka 74 119 0 28 Mar 2020
Continuous speech separation: dataset and analysis Zhuo Chen Takuya Yoshioka Liang Lu Tianyan Zhou Zhong Meng Yi Luo Jian Wu Xiong Xiao Jinyu Li 66 214 0 30 Jan 2020
CN-CELEB: a challenging Chinese speaker recognition dataset Yue Fan Jiawen Kang Lantian Li Keliang Li Haolin Chen Sitong Cheng Pengyuan Zhang Ziya Zhou Yunqi Cai Dong Wang 60 205 0 31 Oct 2019
BUT System Description to VoxCeleb Speaker Recognition Challenge 2019 Hossein Zeinali Shuai Wang Anna Silnova P. Matejka Oldrich Plchot DRL 69 247 0 16 Oct 2019
Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech separation Yi Luo Zhuo Chen Takuya Yoshioka AI4TS 83 770 0 14 Oct 2019
End-to-End Neural Speaker Diarization with Self-attention Yusuke Fujita Naoyuki Kanda Shota Horiguchi Yawen Xue Kenji Nagamatsu Shinji Watanabe 217 240 0 13 Sep 2019
ESPnet: End-to-End Speech Processing Toolkit Shinji Watanabe Takaaki Hori Shigeki Karita Tomoki Hayashi Jiro Nishitoba ... Jahn Heymann Sanjeev Khudanpur Nanxin Chen Adithya Renduchintala Tsubasa Ochiai VLM 106 1,507 0 30 Mar 2018
Speaker Diarization with LSTM Quan Wang Carlton Downey Li Wan Philip Mansfield Ignacio López Moreno 56 316 0 28 Oct 2017
AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline Hui Bu Jiayu Du Xingyu Na Bengu Wu Hao Zheng CVBM 61 841 0 16 Sep 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 701 131,652 0 12 Jun 2017
Deep clustering: Discriminative embeddings for segmentation and separation J. Hershey Zhuo Chen Jonathan Le Roux Shinji Watanabe 60 1,317 0 18 Aug 2015