Deep Speech: Scaling up end-to-end speech recognition

17 December 2014

Papers citing "Deep Speech: Scaling up end-to-end speech recognition"

50 / 750 papers shown

Title
Towards Robust Waveform-Based Acoustic Models Dino Oglic Zoran Cvetkovic Peter Sollich Steve Renals Bin Yu OOD AAML 23 1 0 16 Oct 2021
On Language Model Integration for RNN Transducer based Speech Recognition Wei Zhou Zuoyun Zheng Ralf Schluter Hermann Ney 37 22 0 13 Oct 2021
Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters Jayashree Mohan Amar Phanishayee Janardhan Kulkarni Vijay Chidambaram GNN 8 3 0 12 Oct 2021
Automated Testing of AI Models Swagatam Haldar Deepak Vijaykeerthy Diptikalyan Saha VLM 21 0 0 07 Oct 2021
Internal Language Model Adaptation with Text-Only Data for End-to-End Speech Recognition Zhong Meng Yashesh Gaur Naoyuki Kanda Jinyu Li Xie Chen Yu Wu Yifan Gong AuLLM 21 32 0 06 Oct 2021
Building a Noisy Audio Dataset to Evaluate Machine Learning Approaches for Automatic Speech Recognition Systems J. C. Duarte S. Colcher 4 3 0 04 Oct 2021
Anti-aliasing Deep Image Classifiers using Novel Depth Adaptive Blurring and Activation Function Md Tahmid Hossain S. Teng Ferdous Sohel Guojun Lu 49 13 0 03 Oct 2021
SpliceOut: A Simple and Efficient Audio Augmentation Method Arjit Jain Pranay Reddy Samala Deepak Mittal P. Jyothi M. Singh 28 10 0 30 Sep 2021
Challenges and Opportunities of Speech Recognition for Bengali Language M. F. Mridha Abu Quwsar Ohi Md. Abdul Hamid M. Monowar 23 4 0 27 Sep 2021
DeepStroke: An Efficient Stroke Screening Framework for Emergency Rooms with Multimodal Adversarial Deep Learning Tongan Cai Haomiao Ni Ming-Chieh Yu Xiaolei Huang K. Wong John Volpi Jianmin Wang Stephen T. C. Wong 15 14 0 24 Sep 2021
KOHTD: Kazakh Offline Handwritten Text Dataset N. Toiganbayeva M. Kasem Galymzhan Abdimanap K. Bostanbekov Abdelrahman Abdallah Anel N. Alimova D. Nurseitov 24 23 0 22 Sep 2021
Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation Yuanxun Lu Jinxiang Chai Xun Cao 29 82 0 22 Sep 2021
Reliable Neural Networks for Regression Uncertainty Estimation Tony Tohme Kevin Vanslette K. Youcef-Toumi UQCV BDL 21 15 0 16 Sep 2021
Unsupervised Domain Adaptation Schemes for Building ASR in Low-resource Languages A. C. S. Prathosh A P A. G. Ramakrishnan 41 12 0 12 Sep 2021
Learning Visual-Audio Representations for Voice-Controlled Robots Peixin Chang Shuijing Liu D. L. McPherson Katherine Driggs-Campbell SSL 23 4 0 07 Sep 2021
SEC4SR: A Security Analysis Platform for Speaker Recognition Guangke Chen Zhe Zhao Fu Song Sen Chen Lingling Fan Yang Liu AAML 25 12 0 04 Sep 2021
Efficient conformer: Progressive downsampling and grouped attention for automatic speech recognition Maxime Burchi Valentin Vielzeuf 37 84 0 31 Aug 2021
Adversarial Example Devastation and Detection on Speech Recognition System by Adding Random Noise Mingyu Dong Diqun Yan Yongkang Gong Rangding Wang AAML 33 2 0 31 Aug 2021
Investigating Vulnerabilities of Deep Neural Policies Ezgi Korkmaz AAML 24 33 0 30 Aug 2021
Automatic Speech Recognition And Limited Vocabulary: A Survey J. L. E. K. Fendji D. Tala B. Yenke M. Atemkeng 18 3 0 23 Aug 2021
FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning Chenxu Zhang Yifan Zhao Yifei Huang Ming Zeng Saifeng Ni M. Budagavi Xiaohu Guo CVBM 15 122 0 18 Aug 2021
Detecting OODs as datapoints with High Uncertainty R. Kaur Susmit Jha Anirban Roy Sangdon Park O. Sokolsky Insup Lee AAML UQCV 20 14 0 13 Aug 2021
SpecMix : A Mixed Sample Data Augmentation method for Training withTime-Frequency Domain Features Gwantae Kim D. Han Hanseok Ko 47 42 0 06 Aug 2021
Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language and Accent Identification Sangeeta Ghangam Daniel Whitenack Joshua Nemecek 11 4 0 04 Aug 2021
A Study of Multilingual End-to-End Speech Recognition for Kazakh, Russian, and English Saida Mussakhojayeva Yerbolat Khassanov H. A. Varol 22 17 0 03 Aug 2021
The History of Speech Recognition to the Year 2030 Awni Y. Hannun AI4TS 23 21 0 30 Jul 2021
CarneliNet: Neural Mixture Model for Automatic Speech Recognition A. Kalinov Somshubra Majumdar Jagadeesh Balam Boris Ginsburg MoE 24 3 0 22 Jul 2021
Trustworthy AI: A Computational Perspective Haochen Liu Yiqi Wang Wenqi Fan Xiaorui Liu Yaxin Li Shaili Jain Yunhao Liu Anil K. Jain Jiliang Tang FaML 104 196 0 12 Jul 2021
End-to-End Rich Transcription-Style Automatic Speech Recognition with Semi-Supervised Learning Tomohiro Tanaka Ryo Masumura Mana Ihori Akihiko Takashima Shota Orihashi Naoki Makishima 11 4 0 07 Jul 2021
A Survey on Data Augmentation for Text Classification Markus Bayer M. Kaufhold Christian A. Reuter 36 334 0 07 Jul 2021
Egocentric Videoconferencing Mohamed A. Elgharib Mohit Mendiratta Justus Thies Matthias Nießner Hans-Peter Seidel A. Tewari Vladislav Golyanik Christian Theobalt EgoV 33 17 0 07 Jul 2021
Cross-Modal Transformer-Based Neural Correction Models for Automatic Speech Recognition Tomohiro Tanaka Ryo Masumura Mana Ihori Akihiko Takashima Takafumi Moriya Takanori Ashihara Shota Orihashi Naoki Makishima 14 7 0 04 Jul 2021
CrowdSpeech and VoxDIY: Benchmark Datasets for Crowdsourced Audio Transcription Nikita Pavlichenko Ivan Stelmakh Dmitry Ustalov 24 19 0 02 Jul 2021
Realtime Robust Malicious Traffic Detection via Frequency Domain Analysis Chuanpu Fu Qi Li Meng Shen Ke Xu AAML 15 148 0 28 Jun 2021
Towards Model-informed Precision Dosing with Expert-in-the-loop Machine Learning Yihuang Kang Y. Chiu Ming-Yen Lin F. Su Sheng-Tai Huang 22 2 0 28 Jun 2021
Open, Sesame! Introducing Access Control to Voice Services Dominika Woszczyk Alvin Lee Soteris Demetriou AAML 19 0 0 27 Jun 2021
Accelerating Recurrent Neural Networks for Gravitational Wave Experiments Zhiqiang Que Erwei Wang Umar Marikar Eric A. Moreno J. Ngadiuba ... Vladimir Loncar S. Summers M. Pierini P. Cheung Wayne Luk 11 24 0 26 Jun 2021
Structured in Space, Randomized in Time: Leveraging Dropout in RNNs for Efficient Training Anup Sarma Sonali Singh Huaipan Jiang Rui Zhang M. Kandemir Chita R. Das 11 1 0 22 Jun 2021
Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better Gaurav Menghani VLM MedIm 23 366 0 16 Jun 2021
Dialectal Speech Recognition and Translation of Swiss German Speech to Standard German Text: Microsoft's Submission to SwissText 2021 Yuriy Arabskyy Aashish Agarwal S. Dey Oscar Koller 15 11 0 15 Jun 2021
Break-It-Fix-It: Unsupervised Learning for Program Repair Michihiro Yasunaga Percy Liang 23 106 0 11 Jun 2021
Handcrafted Backdoors in Deep Neural Networks Sanghyun Hong Nicholas Carlini Alexey Kurakin 19 71 0 08 Jun 2021
SpeechBrain: A General-Purpose Speech Toolkit Mirco Ravanelli Titouan Parcollet Peter William VanHarn Plantinga Aku Rouhe Samuele Cornell ... William Aris Hwidong Na Yan Gao R. Mori Yoshua Bengio 15 751 0 08 Jun 2021
LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting Normalization A. Lahiri Vivek Kwatra C. Frueh J. P. Lewis C. Bregler 3DH 38 99 0 08 Jun 2021
Minimum Word Error Rate Training with Language Model Fusion for End-to-End Speech Recognition Zhong Meng Yu-Huan Wu Naoyuki Kanda Liang Lu Xie Chen Guoli Ye Eric Sun Jinyu Li Jiawei Liu MoMe 33 21 0 04 Jun 2021
An Improved Model for Voicing Silent Speech David Gaddy Dana Klein 18 29 0 03 Jun 2021
Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning Haibin Wu Xu Li Andy T. Liu Zhiyong Wu Helen Meng Hung-yi Lee AAML SSL 42 29 0 01 Jun 2021
Multi-Modal Semantic Inconsistency Detection in Social Media News Posts S. McCrae Kehan Wang A. Zakhor 36 15 0 26 May 2021
See, Hear, Read: Leveraging Multimodality with Guided Attention for Abstractive Text Summarization Yash Kumar Atri Shraman Pramanick Vikram Goyal Tanmoy Chakraborty 42 32 0 20 May 2021
Unsupervised Discriminative Learning of Sounds for Audio Event Classification Sascha Hornauer Ke Li Stella X. Yu Shabnam Ghaffarzadegan Liu Ren SSL 26 5 0 19 May 2021