One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition

One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition

2 October 2023

Samuele Cornell

Shinji Watanabe

ArXiv (abs)PDF HTML

Papers citing "One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition"

6 / 6 papers shown

Title
Joint ASR and Speaker Role Tagging with Serialized Output Training Anfeng Xu Tiantian Feng Shrikanth Narayanan 95 0 0 12 Jun 2025
Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics Siddhant Arora Zhiyun Lu Chung-Cheng Chiu Ruoming Pang Shinji Watanabe 101 7 0 03 Mar 2025
DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition Alexander Polok Dominik Klement M. Kocour Jiangyu Han Federico Landini Bolaji Yusuf Sanjeev Khudanpur Kevin Duh J. Černocký L. Burget 52 0 0 03 Jan 2025
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models Thai-Binh Nguyen Alexander Waibel 140 3 0 27 Nov 2024
Resource-Efficient Adaptation of Speech Foundation Models for Multi-Speaker ASR Weiqing Wang Kunal Dhawan Taejin Park Krishna Puvvada Ivan Medennikov Somshubra Majumdar He Huang Jagadeesh Balam Boris Ginsburg 72 2 0 02 Sep 2024
LLM-based speaker diarization correction: A generalizable approach Georgios Efstathiadis Vijay Yadav Anzar Abbas 117 4 0 07 Jun 2024