Robust Speech Recognition via Large-Scale Weak Supervision

6 December 2022

Papers citing "Robust Speech Recognition via Large-Scale Weak Supervision"

50 / 503 papers shown

Title
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model Siyuan Huang Zhengkai Jiang Hao Dong Yu Qiao Peng Gao Hongsheng Li LM&Ro 27 93 0 18 May 2023
An Android Robot Head as Embodied Conversational Agent Marcel Heisler C. Becker-Asano LM&Ro LLMAG 29 0 0 18 May 2023
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation Mutian He Philip N. Garner 44 4 0 16 May 2023
Towards Speech Dialogue Translation Mediating Speakers of Different Languages Shuichiro Shimizu Chenhui Chu Sheng Li Sadao Kurohashi Kyoto University 8 1 0 16 May 2023
Back Translation for Speech-to-text Translation Without Transcripts Qingkai Fang Yang Feng 35 13 0 15 May 2023
Emolysis: A Multimodal Open-Source Group Emotion Analysis and Visualization Toolkit Shreya Ghosh Zhixi Cai Parul Gupta Garima Sharma Abhinav Dhall Munawar Hayat Tom Gedeon 24 2 0 09 May 2023
Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition Dima Rekesh Nithin Rao Koluguri Samuel Kriman Somshubra Majumdar Vahid Noroozi ... Oleksii Hrinchuk Krishna Puvvada Ankur Kumar Jagadeesh Balam Boris Ginsburg 47 81 0 08 May 2023
HeySQuAD: A Spoken Question Answering Dataset Yijing Wu Sai Krishna Rallabandi R. Srinivasamurthy Parag Dakle Alolika Gon Preethi Raghavan 32 4 0 26 Apr 2023
Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects Clément Sicard Kajetan Pyszkowski Victor Gillioz 24 7 0 20 Apr 2023
OLISIA: a Cascade System for Spoken Dialogue State Tracking Léo Jacqmin Lucas Druart Yannick Esteve Benoit Favre L. Rojas-Barahona Valentin Vielzeuf 22 3 0 20 Apr 2023
Multimodal Group Activity Dataset for Classroom Engagement Level Prediction Alpay Sabuncuoglu T. Metin Sezgin 11 3 0 18 Apr 2023
Prak: An automatic phonetic alignment tool for Czech V. Hanzl Adléta Hanzlová 24 0 0 17 Apr 2023
Computational modeling of semantic change Nina Tahmasebi Haim Dubossarsky 34 6 0 13 Apr 2023
AGI for Agriculture Guoyu Lu Sheng Li Gengchen Mai Jin Sun Dajiang Zhu ... R. Xu Daniel Petti Changying Li Tianming Liu Changying Li AI4CE 48 17 0 12 Apr 2023
Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning Nikhil Singh Chih-Wei Wu Iroro Orife Mahdi M. Kalayeh 25 2 0 12 Apr 2023
Hierarchical Video-Moment Retrieval and Step-Captioning Abhaysinh Zala Jaemin Cho Satwik Kottur Xilun Chen Barlas Ouguz Yasher Mehdad Joey Tianyi Zhou 3DV 20 51 0 29 Mar 2023
Hallucinations in Large Multilingual Translation Models Nuno M. Guerreiro Duarte M. Alves Jonas Waldendorf Barry Haddow Alexandra Birch Pierre Colombo André F.T. Martins VLM HILM LRM 35 140 0 28 Mar 2023
CoRe-Sleep: A Multimodal Fusion Framework for Time Series Robust to Imperfect Modalities Konstantinos Kontras Christos Chatzichristos Huy P Phan Johan A. K. Suykens Marina De Vos AI4TS 24 11 0 27 Mar 2023
AfroDigits: A Community-Driven Spoken Digit Dataset for African Languages Chris C. Emezue Sanchit Gandhi Lewis Tunstall Abubakar Abid Josh Meyer ... Douwe Kiela Yacine Jernite Julien Chaumond Merve Noyan Omar Sanseviero 30 2 0 22 Mar 2023
Transformers in Speech Processing: A Survey S. Latif Aun Zaidi Heriberto Cuayáhuitl Fahad Shamshad Moazzam Shoukat Junaid Qadir 42 47 0 21 Mar 2023
ICASSP 2023 Deep Noise Suppression Challenge Harishchandra Dubey A. Aazami Vishak Gopal Sergiy Matusevych Sebastian Braun ... Sefik Emre Eskimez Manthan Thakker H. Gamper Takuya Yoshioka R. Aichner 28 82 0 21 Mar 2023
Building High-accuracy Multilingual ASR with Gated Language Experts and Curriculum Training Eric Sun Jinyu Li Yuxuan Hu Yilun Zhu Long Zhou ... Peidong Wang Linquan Liu Shujie Liu Ed Lin Yifan Gong 29 6 0 01 Mar 2023
On the Audio-visual Synchronization for Lip-to-Speech Synthesis Zhe Niu Brian Mak 22 3 0 01 Mar 2023
Diacritic Recognition Performance in Arabic ASR Hanan Aldarmaki Ahmad Ghannam 13 4 0 27 Feb 2023
Factual Consistency Oriented Speech Recognition Naoyuki Kanda Takuya Yoshioka Yang Liu 43 0 0 24 Feb 2023
Poisoning Web-Scale Training Datasets is Practical Nicholas Carlini Matthew Jagielski Christopher A. Choquette-Choo Daniel Paleka Will Pearce Hyrum S. Anderson Andreas Terzis Kurt Thomas Florian Tramèr SILM 31 182 0 20 Feb 2023
Transformadores: Fundamentos teoricos y Aplicaciones J. D. L. Torre 78 0 0 18 Feb 2023
Cross-Corpora Spoken Language Identification with Domain Diversification and Generalization Spandan Dey Md. Sahidullah G. Saha 21 11 0 10 Feb 2023
PSST! Prosodic Speech Segmentation with Transformers Nathan Roll C. Graham Simon Todd VLM 31 5 0 03 Feb 2023
Efficient Domain Adaptation for Speech Foundation Models Bo-wen Li DongSeon Hwang Zhouyuan Huo Junwen Bai Guru Prakash ... K. Sim Yu Zhang Wei Han Trevor Strohman F. Beaufays AI4CE 44 23 0 03 Feb 2023
Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining Takaaki Saeki Soumi Maiti Xinjian Li Shinji Watanabe Shinnosuke Takamichi Hiroshi Saruwatari 32 17 0 30 Jan 2023
Affective Faces for Goal-Driven Dyadic Communication Scott Geng Revant Teotia Purva Tendulkar Sachit Menon Carl Vondrick VGen 26 18 0 26 Jan 2023
Hopf Physical Reservoir Computer for Reconfigurable Sound Recognition M. R. E. U. Shougat Xiaofu Li Siyao Shao K. McGarvey E. Perkins 16 11 0 20 Dec 2022
Speaking Style Conversion in the Waveform Domain Using Discrete Self-Supervised Units Gallil Maimon Yossi Adi 29 13 0 19 Dec 2022
The Decades Progress on Code-Switching Research in NLP: A Systematic Survey on Trends and Challenges Genta Indra Winata Alham Fikri Aji Zheng-Xin Yong Thamar Solorio 37 33 0 19 Dec 2022
NusaCrowd: Open Source Initiative for Indonesian NLP Resources Samuel Cahyawijaya Holy Lovenia Alham Fikri Aji Genta Indra Winata Bryan Wilie ... Timothy Baldwin Sebastian Ruder Herry Sujaini S. Sakti Ayu Purwarianti 39 48 0 19 Dec 2022
ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format Qi Zhu Christian Geishauser Hsien-Chin Lin Carel van Niekerk Baolin Peng ... Dazhen Wan Xiaochen Zhu Jianfeng Gao Milica Gavsić Minlie Huang 56 23 0 30 Nov 2022
Better Transcription of UK Supreme Court Hearings Hadeel Saadany C. Breslin Constantin Orasan Sophie Walker AILaw 19 6 0 29 Nov 2022
BARTSmiles: Generative Masked Language Models for Molecular Representations Gayane Chilingaryan Hovhannes Tamoyan Ani Tevosyan N. Babayan L. Khondkaryan Karen Hambardzumyan Zaven Navoyan Hrant Khachatrian Armen Aghajanyan SSL 35 25 0 29 Nov 2022
SpeechNet: Weakly Supervised, End-to-End Speech Recognition at Industrial Scale Raphael Tang K. Kumar Gefei Yang Akshat Pandey Yajie Mao Vladislav Belyaev Madhuri Emmadi Craig Murray Ferhan Ture Jimmy J. Lin 27 4 0 21 Nov 2022
Robust Vocal Quality Feature Embeddings for Dysphonic Voice Detection Jianwei Zhang J. Liss Suren Jayasuriya Visar Berisha 36 6 0 17 Nov 2022
OverFlow: Putting flows on top of neural transducers for better TTS Shivam Mehta Ambika Kirkland Harm Lameris Jonas Beskow Éva Székely G. Henter AI4TS 39 12 0 13 Nov 2022
On minimal variations for unsupervised representation learning Vivien A. Cabannes A. Bietti Randall Balestriero SSL DRL 30 8 0 07 Nov 2022
A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability Jian Xue Peidong Wang Jinyu Li Eric Sun 32 10 0 04 Nov 2022
There is more than one kind of robustness: Fooling Whisper with adversarial examples R. Olivier Bhiksha Raj AAML 37 12 0 26 Oct 2022
Broken Neural Scaling Laws Ethan Caballero Kshitij Gupta Irina Rish David M. Krueger 30 74 0 26 Oct 2022
A Textless Metric for Speech-to-Speech Comparison Laurent Besacier S. Ribeiro Olivier Galibert Ioan Calapodescu 38 5 0 21 Oct 2022
LegoNN: Building Modular Encoder-Decoder Models Siddharth Dalmia Dmytro Okhonko M. Lewis Sergey Edunov Shinji Watanabe Florian Metze Luke Zettlemoyer Abdel-rahman Mohamed AuLLM MoE 29 14 0 07 Jun 2022
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech Alexis Conneau Min Ma Simran Khanuja Yu Zhang Vera Axelrod Siddharth Dalmia Jason Riesa Clara E. Rivera Ankur Bapna VLM 89 282 0 25 May 2022
Earnings-21: A Practical Benchmark for ASR in the Wild Miguel Rio Natalie Delworth Ryan Westerman Michelle Huang Nishchal Bhandari Joseph Palakapilly Quinten McNamara Joshua Dong Piotr Żelasko Miguel Jetté 66 47 0 22 Apr 2021