Direct speech-to-speech translation with a sequence-to-sequence model

12 April 2019

Papers citing "Direct speech-to-speech translation with a sequence-to-sequence model"

46 / 46 papers shown

Title
Language translation, and change of accent for speech-to-speech task using diffusion model Abhishek Mishra Ritesh Sur Chowdhury Vartul Bahuguna Isha Pandey Ganesh Ramakrishnan DiffM 44 0 0 04 May 2025
Speech to Speech Translation with Translatotron: A State of the Art Review Jules R. Kala Emmanuel Adetiba Abdultaofeek Abayom Oluwatobi E. Dare Ayodele H. Ifijeh 159 0 0 21 Feb 2025
High-Fidelity Simultaneous Speech-To-Speech Translation Tom Labiausse Laurent Mazaré Edouard Grave P. Pérez Alexandre Défossez Neil Zeghidour 171 0 0 05 Feb 2025
A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation Anna Min Chenxu Hu Yi Ren Hang Zhao 61 0 0 01 Feb 2025
Characterizing and Efficiently Accelerating Multimodal Generation Model Inference Yejin Lee Anna Y. Sun Basil Hosmer Bilge Acun Can Balioglu ... Ram Pasunuru Scott Yih Sravya Popuri Xing Liu Carole-Jean Wu 52 2 0 30 Sep 2024
CTC-based Non-autoregressive Textless Speech-to-Speech Translation Qingkai Fang Zhengrui Ma Yan Zhou Min Zhang Yang Feng 52 0 0 11 Jun 2024
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? Qingkai Fang Shaolei Zhang Zhengrui Ma Min Zhang Yang Feng VLM 43 1 0 11 Jun 2024
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Any Translation Zhengrui Ma Qingkai Fang Shaolei Zhang Shoutao Guo Yang Feng Min Zhang 53 9 0 11 Jun 2024
Textless Acoustic Model with Self-Supervised Distillation for Noise-Robust Expressive Speech-to-Speech Translation Min-Jae Hwang Ilia Kulikov Benjamin Peloquin Hongyu Gong Peng-Jen Chen Ann Lee 29 1 0 04 Jun 2024
SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought Hongyu Gong Bandhav Veluri 47 0 0 30 May 2024
Direct Punjabi to English speech translation using discrete units Prabhjot Kaur L. A. M. Bush Weisong Shi 31 0 0 25 Feb 2024
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation Rongjie Huang Huadai Liu Xize Cheng Yi Ren Lin Li ... Jinzheng He Lichao Zhang Jinglin Liu Xiaoyue Yin Zhou Zhao 70 8 0 24 May 2023
Joint Multi-scale Cross-lingual Speaking Style Transfer with Bidirectional Attention Mechanism for Automatic Dubbing Jingbei Li Sipan Li Ping Chen Lu Zhang Yi Meng Zhiyong Wu Helen Meng Qiao Tian Yuping Wang Yuxuan Wang 35 3 0 09 May 2023
SLTUNET: A Simple Unified Model for Sign Language Translation Biao Zhang Mathias Müller Rico Sennrich SLR 43 33 0 02 May 2023
ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit Brian Yan Jiatong Shi Yun Tang H. Inaguma Yifan Peng ... Zhaoheng Ni Moto Hira Soumi Maiti J. Pino Shinji Watanabe 19 20 0 10 Apr 2023
Towards Zero-Shot Functional Compositionality of Language Models Hangyeol Yu Myeongho Jeong Jamin Shin Hyeongdon Moon Juneyoung Park Seungtaek Choi 37 1 0 06 Mar 2023
SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations Paul-Ambroise Duquenne Hongyu Gong Ning Dong Jingfei Du Ann Lee Vedanuj Goswani Changhan Wang J. Pino Benoît Sagot Holger Schwenk 39 34 0 08 Nov 2022
Textless Direct Speech-to-Speech Translation with Discrete Speech Representation Xinjian Li Ye Jia Chung-Cheng Chiu 30 24 0 31 Oct 2022
Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech Translation Kun Wei Long Zhou Zi-Hua Zhang Liping Chen Shujie Liu Lei He Jinyu Li Furu Wei 14 13 0 31 Oct 2022
Self-supervised language learning from raw audio: Lessons from the Zero Resource Speech Challenge Ewan Dunbar Nicolas Hamilakis Emmanuel Dupoux SSL 32 30 0 27 Oct 2022
A Textless Metric for Speech-to-Speech Comparison Laurent Besacier S. Ribeiro Olivier Galibert Ioan Calapodescu 33 5 0 21 Oct 2022
WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration Yuma Koizumi Kohei Yatabe Heiga Zen M. Bacchiani DiffM 42 29 0 03 Oct 2022
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation Sravya Popuri Peng-Jen Chen Changhan Wang J. Pino Yossi Adi Jiatao Gu Wei-Ning Hsu Ann Lee 28 56 0 06 Apr 2022
Leveraging unsupervised and weakly-supervised data to improve direct speech-to-speech translation Ye Jia Yifan Ding Ankur Bapna Colin Cherry Yu Zhang Alexis Conneau Nobuyuki Morioka 47 20 0 24 Mar 2022
Creating Speech-to-Speech Corpus from Dubbed Series Massa Baali W. El-Hajj Ahmed M. Ali 18 4 0 07 Mar 2022
Real time spectrogram inversion on mobile phone Oleg Rybakov Marco Tagliasacchi Yunpeng Li Liyang Jiang Xia Zhang Fadi Biadsy 15 4 0 01 Mar 2022
Textless Speech-to-Speech Translation on Real Data Ann Lee Hongyu Gong Paul-Ambroise Duquenne Holger Schwenk Peng-Jen Chen ... Sravya Popuri Yossi Adi J. Pino Jiatao Gu Wei-Ning Hsu 28 142 0 15 Dec 2021
Assessing Evaluation Metrics for Speech-to-Speech Translation Elizabeth Salesky Julian Mäder Severin Klinger 29 14 0 26 Oct 2021
From Start to Finish: Latency Reduction Strategies for Incremental Speech Synthesis in Simultaneous Speech-to-Speech Translation Danni Liu Changhan Wang Hongyu Gong Xutai Ma Yun Tang J. Pino 17 4 0 15 Oct 2021
Automatic Speech Recognition And Limited Vocabulary: A Survey J. L. E. K. Fendji D. Tala B. Yenke M. Atemkeng 13 3 0 23 Aug 2021
Translatotron 2: High-quality direct speech-to-speech translation with voice preservation Ye Jia Michelle Tadmor Ramanovich Tal Remez Roi Pomerantz 26 67 0 19 Jul 2021
UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation Won Jang D. Lim Jaesam Yoon Bongwan Kim Juntae Kim 30 125 0 15 Jun 2021
Adversarial Text-to-Image Synthesis: A Review Stanislav Frolov Tobias Hinz Federico Raue Jörn Hees Andreas Dengel EGVM 22 175 0 25 Jan 2021
VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation Changhan Wang M. Rivière Ann Lee Anne Wu Chaitanya Talnikar Daniel Haziza Mary Williamson J. Pino Emmanuel Dupoux SSL 25 460 0 02 Jan 2021
Towards End-to-End In-Image Neural Machine Translation Elman Mansimov Mitchell Stern M. Chen Orhan Firat Jakob Uszkoreit Puneet Jain 27 25 0 20 Oct 2020
Speech Translation and the End-to-End Promise: Taking Stock of Where We Are Matthias Sperber Matthias Paulik 30 106 0 14 Apr 2020
Direct Speech-to-image Translation Jiguo Li Xinfeng Zhang Chuanmin Jia Jizheng Xu Li Zhang Y. Wang Siwei Ma Wen Gao 36 29 0 07 Apr 2020
Towards Neural Machine Translation for Edoid Languages Iroro Orife 17 7 0 24 Mar 2020
Vocoder-free End-to-End Voice Conversion with Transformer Network June-Woo Kim H. Jung Minho Lee 20 4 0 05 Feb 2020
Europarl-ST: A Multilingual Corpus For Speech Translation Of Parliamentary Debates Javier Iranzo-Sánchez J. Silvestre-Cerdà Javier Jorge Nahuel Roselló Adria Giménez A. Sanchís Jorge Civera Saiz Alfons Juan-Císcar 11 179 0 08 Nov 2019
Maximizing Mutual Information for Tacotron Peng Liu Xixin Wu Shiyin Kang Guangzhi Li Dan Su Dong Yu 14 16 0 30 Aug 2019
MaSS: A Large and Clean Multilingual Corpus of Sentence-aligned Spoken Utterances Extracted from the Bible Marcely Zanon Boito William N. Havard Mahault Garnerin Éric Le Ferrand Laurent Besacier 27 47 0 30 Jul 2019
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Z. Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 207 820 0 12 Jun 2018
Tied Multitask Learning for Neural Speech Translation Antonios Anastasopoulos David Chiang 100 171 0 19 Feb 2018
End-to-End Automatic Speech Translation of Audiobooks Alexandre Berard Laurent Besacier A. Kocabiyikoglu Olivier Pietquin 75 190 0 12 Feb 2018
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,746 0 26 Sep 2016