Very Deep Convolutional Networks for End-to-End Speech Recognition

10 October 2016

Papers citing "Very Deep Convolutional Networks for End-to-End Speech Recognition"

40 / 40 papers shown

Title
Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet Manish Dhakal Arman Chhetri Aman Kumar Gupta Prabin B. Lamichhane S. Pandey S. Shakya AI4TS 25 10 0 25 Jun 2024
TS-ENAS:Two-Stage Evolution for Cell-based Network Architecture Search Juan Zou Shenghong Wu Yizhang Xia Weiwei Jiang Zeping Wu Jinhua Zheng 3DV 18 0 0 14 Oct 2023
Kernel Limit of Recurrent Neural Networks Trained on Ergodic Data Sequences Samuel Chun-Hei Lam Justin A. Sirignano K. Spiliopoulos 24 2 0 28 Aug 2023
Sequential Estimation of Gaussian Process-based Deep State-Space Models Yuhao Liu Marzieh Ajirak P. Djuric 13 12 0 29 Jan 2023
ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers for Streaming Speech Recognition Martin H. Radfar Rohit Barnwal R. Swaminathan Feng-Ju Chang Grant P. Strimel Nathan Susanj Athanasios Mouchtaris 26 13 0 29 Sep 2022
Prostate Cancer Malignancy Detection and localization from mpMRI using auto-Deep Learning: One Step Closer to Clinical Utilization Weiwei Zong Eric N Carver Simeng Zhu E. Schaff Daniel Chapman ... I. Chetty B. Movsas W. Wen Tarik K. Alafif X. Zong MedIm 21 4 0 13 Jun 2022
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition Ye Du Jie M. Zhang Qiu-shi Zhu Lirong Dai Ming Wu Xin Fang Zhouwang Yang 21 2 0 05 Apr 2022
Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition With Emformer J. Sun Guiping Zhong Dinghao Zhou Baoxiang Li 16 0 0 29 Mar 2022
Adversarial Attacks on Speech Recognition Systems for Mission-Critical Applications: A Survey Ngoc Dung Huynh Mohamed Reda Bouadjenek Imran Razzak Kevin Lee Chetan Arora Ali Hassani A. Zaslavsky AAML 23 6 0 22 Feb 2022
Polyphonic pitch detection with convolutional recurrent neural networks Carl Thomé Sven Ahlback 14 8 0 04 Feb 2022
A Unified Speaker Adaptation Approach for ASR Yingzhu Zhao Chongjia Ni C. Leung Shafiq R. Joty Chng Eng Siong B. Ma CLL 92 9 0 16 Oct 2021
Homogeneous Architecture Augmentation for Neural Predictor Yuqiao Liu Yehui Tang Y. Sun 23 22 0 28 Jul 2021
Efficient Weight factorization for Multilingual Speech Recognition Ngoc-Quan Pham Tuan-Nam Nguyen S. Stueker A. Waibel 35 19 0 07 May 2021
A Whole Brain Probabilistic Generative Model: Toward Realizing Cognitive Architectures for Developmental Robots T. Taniguchi Hiroshi Yamakawa Takayuki Nagai Kenji Doya M. Sakagami Masahiro Suzuki Tomoaki Nakamura Akira Taniguchi 20 23 0 15 Mar 2021
A Survey on Deep Reinforcement Learning for Audio-Based Applications S. Latif Heriberto Cuayáhuitl Farrukh Pervez Fahad Shamshad Hafiz Shehbaz Ali Erik Cambria OffRL 42 73 0 01 Jan 2021
Multiresolution and Multimodal Speech Recognition with Transformers Georgios Paraskevopoulos Srinivas Parthasarathy Aparna Khare Shiva Sundaram 18 29 0 29 Apr 2020
Imputer: Sequence Modelling via Imputation and Dynamic Programming William Chan Chitwan Saharia Geoffrey E. Hinton Mohammad Norouzi Navdeep Jaitly BDL AI4TS 16 114 0 20 Feb 2020
Deep Representations for Cross-spectral Ocular Biometrics L. A. Zanlorensi D. Lucio A. Britto Hugo Manuel Proença David Menotti CVBM 13 25 0 21 Nov 2019
Correction of Automatic Speech Recognition with Transformer Sequence-to-sequence Model Oleksii Hrinchuk Mariya Popova Boris Ginsburg VLM 12 87 0 23 Oct 2019
Transformer-based Acoustic Modeling for Hybrid Speech Recognition Yongqiang Wang Abdel-rahman Mohamed Duc Le Chunxi Liu Alex Xiao ... Xiaohui Zhang Frank Zhang Christian Fuegen Geoffrey Zweig M. Seltzer 14 248 0 22 Oct 2019
Focal Loss based Residual Convolutional Neural Network for Speech Emotion Recognition Suraj Tripathi Abhay Kumar A. Ramesh Chirag Singh Promod Yenigalla 9 13 0 11 Jun 2019
Acoustic-to-Word Models with Conversational Context Information Suyoun Kim Florian Metze 14 7 0 21 May 2019
Deep Learning for Audio Signal Processing Hendrik Purwins Bo-wen Li Tuomas Virtanen Jan Schlüter Shuo-yiin Chang Tara N. Sainath VLM 24 584 0 30 Apr 2019
Very Deep Self-Attention Networks for End-to-End Speech Recognition Ngoc-Quan Pham T. Nguyen J. Niehues Markus Müller Sebastian Stüker A. Waibel 21 161 0 30 Apr 2019
From Semi-supervised to Almost-unsupervised Speech Recognition with Very-low Resource by Jointly Learning Phonetic Structures from Audio and Text Embeddings Yi-Chen Chen Sung-Feng Huang Hung-yi Lee Lin-Shan Lee SSL 14 0 0 10 Apr 2019
A spelling correction model for end-to-end speech recognition Jinxi Guo Tara N. Sainath Ron J. Weiss AuLLM KELM 19 139 0 19 Feb 2019
Temporal Convolutional Memory Networks for Remaining Useful Life Estimation of Industrial Machinery Lahiru Jayasinghe Tharaka Samarasinghe Chau Yuen Jenny Chen Ni Low S. Ge 6 63 0 12 Oct 2018
Fast ASR-free and almost zero-resource keyword spotting using DTW and CNNs for humanitarian monitoring Raghav Menon Herman Kamper John Quinn T. Niesler 11 28 0 25 Jun 2018
Extending Recurrent Neural Aligner for Streaming End-to-End Speech Recognition in Mandarin Linhao Dong Shiyu Zhou Wei Chen Bo Xu 16 22 0 17 Jun 2018
Adversarial adaptive 1-D convolutional neural networks for bearing fault diagnosis under varying working condition Bo Zhang Wei Li Jie Hao Xiao-Li Li Meng Zhang 14 53 0 01 May 2018
Graph2Seq: Graph to Sequence Learning with Attention-based Neural Networks Kun Xu Lingfei Wu Zhiguo Wang Yansong Feng Michael Witbrock V. Sheinin GNN 22 170 0 03 Apr 2018
ESPnet: End-to-End Speech Processing Toolkit Shinji Watanabe Takaaki Hori Shigeki Karita Tomoki Hayashi Jiro Nishitoba ... Jahn Heymann Matthew Wiesner Nanxin Chen Adithya Renduchintala Tsubasa Ochiai VLM 6 1,477 0 30 Mar 2018
Self-Attentional Acoustic Models Matthias Sperber J. Niehues Graham Neubig Sebastian Stüker A. Waibel 22 151 0 26 Mar 2018
Multi-Dialect Speech Recognition With A Single Sequence-To-Sequence Model Bo-wen Li Tara N. Sainath K. Sim M. Bacchiani Eugene Weinstein Patrick Nguyen Z. Chen Yan-Qing Wu Kanishka Rao 21 133 0 05 Dec 2017
Spatiotemporal Modeling for Crowd Counting in Videos Feng Xiong Xingjian Shi Dit-Yan Yeung 22 184 0 25 Jul 2017
Online and Linear-Time Attention by Enforcing Monotonic Alignments Colin Raffel Minh-Thang Luong Peter J. Liu Ron J. Weiss Douglas Eck 27 255 0 03 Apr 2017
Multichannel End-to-end Speech Recognition Tsubasa Ochiai Shinji Watanabe Takaaki Hori J. Hershey 17 92 0 14 Mar 2017
English Conversational Telephone Speech Recognition by Humans and Machines G. Saon Gakuto Kurata Tom Sercu Kartik Audhkhasi Samuel Thomas ... Bhuvana Ramabhadran M. Picheny L. Lim Bergul Roomi Phil Hall 26 364 0 06 Mar 2017
Towards better decoding and language model integration in sequence to sequence models J. Chorowski Navdeep Jaitly 6 368 0 08 Dec 2016
Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting Xingjian Shi Zhourong Chen Hao Wang Dit-Yan Yeung W. Wong W. Woo 230 7,903 0 13 Jun 2015