Title
Guided Speaker Embedding Shota Horiguchi Takafumi Moriya Atsushi Ando Takanori Ashihara Hiroshi Sato Naohiro Tawara Marc Delcroix 47 0 0 03 Jan 2025
StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification Yichen He Yuan Lin Jianchao Wu Hanchong Zhang Yuchen Zhang Ruicheng Le VGen VLM 201 2 0 11 Nov 2024
HDMoLE: Mixture of LoRA Experts with Hierarchical Routing and Dynamic Thresholds for Fine-Tuning LLM-based ASR Models Bingshen Mu Kun Wei Qijie Shao Yong Xu Lei Xie MoE 47 2 0 30 Sep 2024
RealMAN: A Real-Recorded and Annotated Microphone Array Dataset for Dynamic Speech Enhancement and Localization Bing Yang Changsheng Quan Yabo Wang Pengyu Wang Yujie Yang Ying Fang Nian Shao Hui Bu Xin Xu Xiaofei Li 45 5 0 28 Jun 2024
SCDNet: Self-supervised Learning Feature-based Speaker Change Detection Yue Li Xinsheng Wang Li Zhang Lei Xie 52 1 0 12 Jun 2024
MaLa-ASR: Multimedia-Assisted LLM-Based ASR Guanrou Yang Ziyang Ma Fan Yu Zhifu Gao Shiliang Zhang Xie Chen AuLLM 44 4 0 09 Jun 2024
ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings Théo Mariotte Anthony Larcher Silvio Montrésor Jean-Hugh Thomas 35 0 0 05 Jun 2024
Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning Brandon Colelough Andrew Zheng 26 1 0 30 May 2024
Towards Decoupling Frontend Enhancement and Backend Recognition in Monaural Robust ASR Yufeng Yang Ashutosh Pandey DeLiang Wang 44 4 0 11 Mar 2024
PP-MeT: a Real-world Personalized Prompt based Meeting Transcription System Xiang Lyu Yuhang Cao Qing Wang Jingjing Yin Yuguang Yang Pengpeng Zou G. Zachmann Heng Lu VLM 37 3 0 28 Sep 2023
Large-Scale Learning on Overlapped Speech Detection: New Benchmark and New General System Zhao-Yu Yin Jingguang Tian Xinhui Hu Xinkang Xu Yang Xiang 25 1 0 11 Aug 2023
SURT 2.0: Advances in Transducer-based Multi-talker Speech Recognition Desh Raj Daniel Povey Sanjeev Khudanpur VLM 34 9 0 18 Jun 2023
BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR Yuhao Liang Fan Yu Yangze Li Pengcheng Guo Shiliang Zhang Qian Chen Linfu Xie 33 8 0 23 May 2023
Exploring Speaker-Related Information in Spoken Language Understanding for Better Speaker Diarization Luyao Cheng Siqi Zheng Zhang Qinglin Haibo Wang Yafeng Chen Qian Chen 43 4 0 22 May 2023
CASA-ASR: Context-Aware Speaker-Attributed ASR Mohan Shi Zhihao Du Qian Chen Fan Yu Yangze Li Shiliang Zhang Jie Zhang Lirong Dai 36 8 0 21 May 2023
Token-level Speaker Change Detection Using Speaker Difference and Speech Content via Continuous Integrate-and-fire Zhiyun Fan Zhenlin Liang Linhao Dong Yi Liu Shiyu Zhou Meng Cai Jun Zhang Zejun Ma Bo Xu 37 2 0 17 Nov 2022
Time-Domain Speech Enhancement for Robust Automatic Speech Recognition Yufeng Yang Ashutosh Pandey DeLiang Wang 24 8 0 24 Oct 2022
ADD 2022: the First Audio Deep Synthesis Detection Challenge Jiangyan Yi Ruibo Fu J. Tao Shuai Nie Haoxin Ma ... Le Xu Zhengqi Wen Haizhou Li Zheng Lian Bin Liu 25 176 0 17 Feb 2022
The xmuspeech system for multi-channel multi-party meeting transcription challenge Jie Wang Yuji Liu Binling Wang Yiming Zhi Song Li Shipeng Xia Jiayang Zhang Lin Li Q. Hong Feng Tong 21 0 0 11 Feb 2022
The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party meeting transcription (M2MeT) challenge Maokui He Xiang Lv Weilin Zhou Jingjing Yin Xiaoqi Zhang ... Shutong Niu Yuhang Cao Heng Lu Jun Du Chin-Hui Lee 48 7 0 10 Feb 2022
Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel Multi-party Meeting Transcription Challenge Jingguang Tian Xinhui Hu Xinkang Xu 27 9 0 10 Feb 2022
Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge Fan Yu Shiliang Zhang Pengcheng Guo Yihui Fu Zhihao Du ... Kong Aik Lee Zhijie Yan B. Ma Xin Xu Hui Bu 18 28 0 08 Feb 2022
The RoyalFlush System of Speech Recognition for M2MeT Challenge Shuaishuai Ye Peiyao Wang Shunfei Chen Xinhui Hu Xinkang Xu 24 5 0 03 Feb 2022
M2MeT: The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge Fan Yu Shiliang Zhang Yihui Fu Lei Xie Siqi Zheng ... Pengcheng Guo Zhijie Yan B. Ma Xin Xu Hui Bu 11 106 0 14 Oct 2021
The DKU-DukeECE-Lenovo System for the Diarization Task of the 2021 VoxCeleb Speaker Recognition Challenge Weiqing Wang Danwei Cai Qingjian Lin Lin Yang Junjie Wang Jin Wang Ming Li 27 26 0 05 Sep 2021
A Review of Speaker Diarization: Recent Advances with Deep Learning Tae Jin Park Naoyuki Kanda Dimitrios Dimitriadis Kyu Jeong Han Shinji Watanabe Shrikanth Narayanan VLM 274 328 0 24 Jan 2021
Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: theory, implementation and analysis on standard tasks Federico Landini Jan Profant Mireia Díez L. Burget 216 200 0 29 Dec 2020
Don't shoot butterfly with rifles: Multi-channel Continuous Speech Separation with Early Exit Transformer Sanyuan Chen Yu-Huan Wu Zhuo Chen Takuya Yoshioka Shujie Liu Jinyu Li 29 26 0 23 Oct 2020