Leveraging Broadcast Media Subtitle Transcripts for Automatic Speech Recognition and Subtitling

5 February 2025

Papers citing "Leveraging Broadcast Media Subtitle Transcripts for Automatic Speech Recognition and Subtitling"

13 / 13 papers shown

Title
Masked Autoencoders that Listen Po-Yao (Bernie) Huang Hu Xu Juncheng Billy Li Alexei Baevski Michael Auli Wojciech Galuba Florian Metze Christoph Feichtenhofer 55 276 0 13 Jul 2022
BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada K. Kashino SSL 56 55 0 15 Apr 2022
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 173 1,794 0 26 Oct 2021
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 127 2,879 0 14 Jun 2021
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 160 5,677 0 20 Jun 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 188 3,082 0 16 May 2020
PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley VLM SSL 102 1,068 0 21 Dec 2019
Speaker Recognition from Raw Waveform with SincNet Mirco Ravanelli Yoshua Bengio 78 706 0 29 Jul 2018
Squeeze-and-Excitation Networks Jie Hu Li Shen Samuel Albanie Gang Sun Enhua Wu 321 26,241 0 05 Sep 2017
Deep Learning and Music Adversaries Corey Kereliuk Bob L. T. Sturm J. Larsen AAML 42 136 0 16 Jul 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 776 149,474 0 22 Dec 2014
Deep Scattering Spectrum Joakim Andén S. Mallat 70 533 0 24 Apr 2013
Estimating Phoneme Class Conditional Probabilities from Raw Speech Signal using Convolutional Neural Networks Dimitri Palaz R. Collobert Mathew Magimai.-Doss 47 203 0 03 Apr 2013