fairseq S2T: Fast Speech-to-Text Modeling with fairseq

11 October 2020

Papers citing "fairseq S2T: Fast Speech-to-Text Modeling with fairseq"

50 / 61 papers shown

Title
Teochew-Wild: The First In-the-wild Teochew Dataset with Orthographic Annotations Linrong Pan Chenglong Jiang Gaoze Hou Ying Gao 48 0 0 08 May 2025
High-Fidelity Simultaneous Speech-To-Speech Translation Tom Labiausse Laurent Mazaré Edouard Grave P. Pérez Alexandre Défossez Neil Zeghidour 206 0 0 05 Feb 2025
A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation Anna Min Chenxu Hu Yi Ren Hang Zhao 61 0 0 01 Feb 2025
Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison Tsz Kin Lam Marco Gaido Sara Papi L. Bentivogli Barry Haddow 36 0 0 04 Jan 2025
SPES: Spectrogram Perturbation for Explainable Speech-to-Text Generation Dennis Fucci Marco Gaido Beatrice Savoldi Matteo Negri Mauro Cettolo L. Bentivogli 57 1 0 03 Nov 2024
Speechworthy Instruction-tuned Language Models Hyundong Justin Cho Nicolaas Jedema Leonardo F. R. Ribeiro Karishma Sharma Pedro Szekely Alessandro Moschitti Ruben Janssen Jonathan May ALM 44 1 0 23 Sep 2024
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? Qingkai Fang Shaolei Zhang Zhengrui Ma Min Zhang Yang Feng VLM 43 1 0 11 Jun 2024
FFSTC: Fongbe to French Speech Translation Corpus D. F. Kponou F. Laleye E. C. Ezin 29 0 0 08 Mar 2024
Direct Models for Simultaneous Translation and Automatic Subtitling: FBK@IWSLT2023 Sara Papi Marco Gaido Matteo Negri 43 7 0 27 Sep 2023
Implicit Memory Transformer for Computationally Efficient Simultaneous Speech Translation Matthew Raffel Lizhong Chen 9 5 0 03 Jul 2023
Shiftable Context: Addressing Training-Inference Context Mismatch in Simultaneous Speech Translation Matthew Raffel Drew Penney Lizhong Chen 24 3 0 03 Jul 2023
End-to-End Simultaneous Speech Translation with Differentiable Segmentation Shaolei Zhang Yang Feng 23 17 0 25 May 2023
Improving Metrics for Speech Translation Claudio Paonessa Dominik Frefel Manfred Vogel 31 1 0 22 May 2023
DUB: Discrete Unit Back-translation for Speech Translation Dong Zhang Rong Ye Tom Ko Mingxuan Wang Yaqian Zhou 21 23 0 19 May 2023
HeySQuAD: A Spoken Question Answering Dataset Yijing Wu Sai Krishna Rallabandi R. Srinivasamurthy Parag Dakle Alolika Gon Preethi Raghavan 32 4 0 26 Apr 2023
ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit Brian Yan Jiatong Shi Yun Tang Hirofumi Inaguma Yifan Peng ... Zhaoheng Ni Moto Hira Soumi Maiti J. Pino Shinji Watanabe 19 20 0 10 Apr 2023
When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP Sara Papi Marco Gaido Andrea Pilzer Matteo Negri 59 10 0 28 Mar 2023
Transformers in Speech Processing: A Survey S. Latif Aun Zaidi Heriberto Cuayáhuitl Fahad Shamshad Moazzam Shoukat Junaid Qadir 42 47 0 21 Mar 2023
Efficient CTC Regularization via Coarse Labels for End-to-End Speech Translation Biao Zhang Barry Haddow Rico Sennrich 17 3 0 21 Feb 2023
SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations Ioannis Tsiamas José A. R. Fonollosa Marta R. Costa-jussá 41 6 0 19 Dec 2022
A large-scale and PCR-referenced vocal audio dataset for COVID-19 Jobie Budd Kieran Baker E. Karoune H. Coppock Selina Patel ... D. Pigoli Stephen J. Roberts Josef Packham T. Thornley Chris Holmes 35 5 0 15 Dec 2022
TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities Zhe Zhao Yudong Li Cheng-An Hou Jing-xin Zhao Rong Tian ... Xingwu Sun Zhanhui Kang Xiaoyong Du Linlin Shen Kimmo Yan VLM 41 23 0 13 Dec 2022
M3ST: Mix at Three Levels for Speech Translation Xuxin Cheng Qianqian Dong Fengpeng Yue Tom Ko Mingxuan Wang Yuexian Zou 30 40 0 07 Dec 2022
Improving End-to-end Speech Translation by Leveraging Auxiliary Speech and Text Data Yuhao Zhang Chen Xu Bojie Hu Chunliang Zhang Tong Xiao Jingbo Zhu 27 15 0 04 Dec 2022
Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation Tsz Kin Lam Shigehiko Schamoni Stefan Riezler VLM 44 8 0 27 Oct 2022
$RedApt: An Adaptor for wav2vec 2 Encoding \\ Faster and Smaller Speech Translation without Quality Compromise$ RedApt: An Adaptor for wav2vec 2 Encoding \\ Faster and Smaller Speech Translation without Quality Compromise Jinming Zhao Haomiao Yang Gholamreza Haffari Ehsan Shareghi VLM 19 2 0 16 Oct 2022
Direct Speech Translation for Automatic Subtitling Sara Papi Marco Gaido Alina Karakanta Mauro Cettolo Matteo Negri Marco Turchi 54 11 0 27 Sep 2022
Watch What You Pretrain For: Targeted, Transferable Adversarial Examples on Self-Supervised Speech Recognition models R. Olivier H. Abdullah Bhiksha Raj AAML 26 1 0 17 Sep 2022
M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation Jinming Zhao Haomiao Yang Ehsan Shareghi Gholamreza Haffari 48 19 0 03 Jul 2022
R-MelNet: Reduced Mel-Spectral Modeling for Neural TTS Kyle Kastner Aaron Courville 35 0 0 30 Jun 2022
Non-Parametric Domain Adaptation for End-to-End Speech Translation Yichao Du Weizhi Wang Zhirui Zhang Boxing Chen Tong Xu Jun Xie Enhong Chen 51 18 0 23 May 2022
PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit Hui Zhang Tian Yuan Junkun Chen Xintong Li Renjie Zheng ... Zeyu Chen Xiaoguang Hu Dianhai Yu Yanjun Ma Liang Huang AuLLM 31 24 0 20 May 2022
Who Are We Talking About? Handling Person Names in Speech Translation Marco Gaido Matteo Negri Marco Turchi 23 7 0 13 May 2022
Efficient yet Competitive Speech Translation: FBK@IWSLT2022 Marco Gaido Sara Papi Dennis Fucci G. Fiameni Matteo Negri Marco Turchi 31 19 0 05 May 2022
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Jeong Han Ryan T. McDonald Kilian Q. Weinberger Yoav Artzi SyDa 48 37 0 02 May 2022
GigaST: A 10,000-hour Pseudo Speech Translation Corpus Rong Ye Chengqi Zhao Tom Ko Chutong Meng Tao Wang Mingxuan Wang Jun Cao 9 23 0 08 Apr 2022
Does Simultaneous Speech Translation need Simultaneous Models? Sara Papi Marco Gaido Matteo Negri Marco Turchi 41 26 0 08 Apr 2022
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation Sravya Popuri Peng-Jen Chen Changhan Wang J. Pino Yossi Adi Jiatao Gu Wei-Ning Hsu Ann Lee 28 56 0 06 Apr 2022
An Analysis of Semantically-Aligned Speech-Text Embeddings M. Huzaifah Ivan Kukanov 33 7 0 04 Apr 2022
Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech Translation Chih-Chiang Chang Hung-yi Lee 27 13 0 22 Mar 2022
STEMM: Self-learning with Speech-text Manifold Mixup for Speech Translation Qingkai Fang Rong Ye Lei Li Yang Feng Mingxuan Wang 35 95 0 20 Mar 2022
Speech Resources in the Tamasheq Language Marcely Zanon Boito Fethi Bougares Florentin Barbier Souhir Gahbiche Loïc Barrault Mickael Rouvier Yannick Esteve 28 14 0 13 Jan 2022
Automatic Speech Recognition Datasets in Cantonese: A Survey and New Dataset Tiezheng Yu Rita Frieske Peng Xu Samuel Cahyawijaya Cheuk Tung Shadow Yiu ... Elham J. Barezi Qifeng Chen Xiaojuan Ma Bertram E. Shi Pascale Fung RALM 44 9 0 07 Jan 2022
Voice Quality and Pitch Features in Transformer-Based Speech Recognition Guillermo Cámbara Jordi Luque Mireia Farrús 24 0 0 21 Dec 2021
Textless Speech-to-Speech Translation on Real Data Ann Lee Hongyu Gong Paul-Ambroise Duquenne Holger Schwenk Peng-Jen Chen ... Sravya Popuri Yossi Adi J. Pino Jiatao Gu Wei-Ning Hsu 28 142 0 15 Dec 2021
From Start to Finish: Latency Reduction Strategies for Incremental Speech Synthesis in Simultaneous Speech-to-Speech Translation Danni Liu Changhan Wang Hongyu Gong Xutai Ma Yun Tang J. Pino 25 4 0 15 Oct 2021
Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates Hirofumi Inaguma Siddharth Dalmia Brian Yan Shinji Watanabe 65 11 0 27 Sep 2021
Multi-Sentence Resampling: A Simple Approach to Alleviate Dataset Length Bias and Beam-Search Degradation Ivan Provilkov A. Malinin 22 4 0 13 Sep 2021
ImageBART: Bidirectional Context with Multinomial Diffusion for Autoregressive Image Synthesis Patrick Esser Robin Rombach A. Blattmann Bjorn Ommer DiffM 38 156 0 19 Aug 2021
Simultaneous Speech Translation for Live Subtitling: from Delay to Display Alina Karakanta Sara Papi Matteo Negri Marco Turchi 28 10 0 19 Jul 2021