Context-aware Fine-tuning of Self-supervised Speech Models

16 December 2022

Kwangyoun Kim

Papers citing "Context-aware Fine-tuning of Self-supervised Speech Models"

31 / 31 papers shown

Title
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding Jiaxi Hu Zuchao Li Mengjia Shen Haojun Ai Sheng Li Jun Zhang 78 0 0 20 Jan 2025
Leveraging Acoustic Contextual Representation by Audio-textual Cross-modal Learning for Conversational ASR Kun Wei Yike Zhang Sining Sun Lei Xie Long Ma 54 9 0 03 Jul 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 181 365 0 21 May 2022
Towards End-to-End Integration of Dialog History for Improved Spoken Language Understanding Vishal Sunder Samuel Thomas H. Kuo Jatin Ganhotra Brian Kingsbury Eric Fosler-Lussier VLM 76 10 0 11 Apr 2022
CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming ASR Keyu An Huahuan Zheng Zhijian Ou Hongyu Xiang Ke Ding Guanglu Wan AI4TS 45 18 0 31 Mar 2022
Conversational Speech Recognition By Learning Conversation-level Characteristics Kun Wei Yike Zhang Sining Sun Lei Xie Long Ma 63 8 0 16 Feb 2022
On the Use of External Data for Spoken Named Entity Recognition Ankita Pasad Felix Wu Suwon Shon Karen Livescu Kyu Jeong Han 68 16 0 14 Dec 2021
SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech Suwon Shon Ankita Pasad Felix Wu Pablo Brusco Yoav Artzi Karen Livescu Kyu Jeong Han AuLLM ELM 80 76 0 19 Nov 2021
Speech Summarization using Restricted Self-Attention Roshan S. Sharma Shruti Palaskar A. Black Florian Metze 48 34 0 12 Oct 2021
Integrating Dialog History into End-to-End Spoken Language Understanding Systems Jatin Ganhotra Samuel Thomas H. Kuo Sachindra Joshi G. Saon Zoltán Tüske Brian Kingsbury 64 10 0 18 Aug 2021
Multi-mode Transformer Transducer with Stochastic Future Context Kwangyoun Kim Felix Wu Prashant Sridhar Kyu Jeong Han Shinji Watanabe 55 10 0 17 Jun 2021
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 180 2,966 0 14 Jun 2021
SUPERB: Speech processing Universal PERformance Benchmark Shu-Wen Yang Po-Han Chi Yung-Sung Chuang Cheng-I Jeff Lai Kushal Lakhotia ... Shuyan Dong Shang-Wen Li Shinji Watanabe Abdel-rahman Mohamed Hung-yi Lee SSL 106 935 0 03 May 2021
Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers Takaaki Hori Niko Moritz Chiori Hori Jonathan Le Roux 66 34 0 19 Apr 2021
VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation Changhan Wang M. Rivière Ann Lee Anne Wu Chaitanya Talnikar Daniel Haziza Mary Williamson J. Pino Emmanuel Dupoux SSL 92 488 0 02 Jan 2021
SLURP: A Spoken Language Understanding Resource Package E. Bastianelli Andrea Vanzo P. Swietojanski Verena Rieser VLM 88 229 0 26 Nov 2020
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 282 5,801 0 20 Jun 2020
Dialogue history integration into end-to-end signal-to-concept spoken language understanding systems N. Tomashenko C. Raymond Antoine Caubrière R. Mori Yannick Esteve 69 15 0 14 Feb 2020
Libri-Light: A Benchmark for ASR with Limited or No Supervision Jacob Kahn M. Rivière Weiyi Zheng Evgeny Kharitonov Qiantong Xu ... Tatiana Likhomanenko Gabriel Synnaeve Armand Joulin Abdel-rahman Mohamed Emmanuel Dupoux AuLLM 67 672 0 17 Dec 2019
Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer Encoders Andy T. Liu Shu-Wen Yang Po-Han Chi Po-Chun Hsu Hung-yi Lee SSL 143 374 0 25 Oct 2019
Transformer ASR with Contextual Block Processing E. Tsunoo Yosuke Kashiwagi Toshiyuki Kumakura Shinji Watanabe 84 65 0 16 Oct 2019
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations Zhenzhong Lan Mingda Chen Sebastian Goodman Kevin Gimpel Piyush Sharma Radu Soricut SSL AIMat 368 6,455 0 26 Sep 2019
Cross-Attention End-to-End ASR for Two-Party Conversations Suyoun Kim Siddharth Dalmia Florian Metze 38 18 0 24 Jul 2019
Acoustic-to-Word Models with Conversational Context Information Suyoun Kim Florian Metze 44 7 0 21 May 2019
Speech Model Pre-training for End-to-End Spoken Language Understanding Loren Lugosch Mirco Ravanelli Patrick Ignoto Vikrant Singh Tomar Yoshua Bengio SyDa AuLLM 65 354 0 07 Apr 2019
An Unsupervised Autoregressive Model for Speech Representation Learning Yu-An Chung Wei-Ning Hsu Hao Tang James R. Glass SSL 78 408 0 05 Apr 2019
fairseq: A Fast, Extensible Toolkit for Sequence Modeling Myle Ott Sergey Edunov Alexei Baevski Angela Fan Sam Gross Nathan Ng David Grangier Michael Auli VLM FaML 109 3,151 0 01 Apr 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.8K 94,891 0 11 Oct 2018
Representation Learning with Contrastive Predictive Coding Aaron van den Oord Yazhe Li Oriol Vinyals DRL SSL 320 10,302 0 10 Jul 2018
VoxCeleb: a large-scale speaker identification dataset Arsha Nagrani Joon Son Chung Andrew Zisserman 125 2,274 0 26 Jun 2017
Skip-Thought Vectors Ryan Kiros Yukun Zhu Ruslan Salakhutdinov R. Zemel Antonio Torralba R. Urtasun Sanja Fidler SSL 216 2,411 0 22 Jun 2015