Attention-Based Models for Speech Recognition

24 June 2015

Papers citing "Attention-Based Models for Speech Recognition"

50 / 394 papers shown

Title
Large scale weakly and semi-supervised learning for low-resource video ASR Kritika Singh Vimal Manohar Alex Xiao Sergey Edunov Ross B. Girshick Vitaliy Liptchinsky Christian Fuegen Yatharth Saraf Geoffrey Zweig Abdel-rahman Mohamed 31 9 0 16 May 2020
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation A. Laptev Roman Korostik A. Svischev A. Andrusenko Ivan Medennikov S. Rybin 16 61 0 14 May 2020
Hard-Coded Gaussian Attention for Neural Machine Translation Weiqiu You Simeng Sun Mohit Iyyer 25 67 0 02 May 2020
Exploring Pre-training with Alignments for RNN Transducer based End-to-End Speech Recognition Hu Hu Rui Zhao Jinyu Li Liang Lu Jiawei Liu 19 27 0 01 May 2020
Capsule-Transformer for Neural Machine Translation Sufeng Duan Juncheng Cao Hai Zhao MedIm 27 4 0 30 Apr 2020
Multiresolution and Multimodal Speech Recognition with Transformers Georgios Paraskevopoulos Srinivas Parthasarathy Aparna Khare Shiva Sundaram 25 29 0 29 Apr 2020
Sequential Interpretability: Methods, Applications, and Future Direction for Understanding Deep Learning Models in the Context of Sequential Data B. Shickel Parisa Rashidi AI4TS 30 17 0 27 Apr 2020
L-Vector: Neural Label Embedding for Domain Adaptation Zhong Meng Hu Hu Jinyu Li Changliang Liu Yan-ping Huang Jiawei Liu Chin-Hui Lee 14 24 0 25 Apr 2020
Deep Learning for Time Series Forecasting: Tutorial and Literature Survey Konstantinos Benidis Syama Sundar Rangapuram Valentin Flunkert Bernie Wang Danielle C. Maddix ... David Salinas Lorenzo Stella François-Xavier Aubet Laurent Callot Tim Januschowski AI4TS 25 176 0 21 Apr 2020
How to Teach DNNs to Pay Attention to the Visual Modality in Speech Recognition George Sterpu Christian Saam N. Harte 34 28 0 17 Apr 2020
Minimum Latency Training Strategies for Streaming Sequence-to-Sequence ASR Hirofumi Inaguma Yashesh Gaur Liang Lu Jinyu Li Jiawei Liu AI4TS 27 46 0 10 Apr 2020
A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects Zewen Li Wenjie Yang Shouheng Peng Fan Liu HAI 3DV 62 2,605 0 01 Apr 2020
Serialized Output Training for End-to-End Overlapped Speech Recognition Naoyuki Kanda Yashesh Gaur Xiaofei Wang Zhong Meng Takuya Yoshioka 8 113 0 28 Mar 2020
A Survey of Deep Learning for Scientific Discovery M. Raghu Erica Schmidt OOD AI4CE 40 120 0 26 Mar 2020
Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation Huiyu Wang Yukun Zhu Bradley Green Hartwig Adam Alan Yuille Liang-Chieh Chen 3DPC 28 658 0 17 Mar 2020
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval Hui Chen Guiguang Ding Xudong Liu Zijia Lin Ji Liu Jungong Han 22 318 0 08 Mar 2020
Show, Edit and Tell: A Framework for Editing Image Captions Fawaz Sammani Luke Melas-Kyriazi KELM DiffM 48 59 0 06 Mar 2020
End-to-End Neural Diarization: Reformulating Speaker Diarization as Simple Multi-label Classification Yusuke Fujita Shinji Watanabe Shota Horiguchi Yawen Xue Kenji Nagamatsu 14 49 0 24 Feb 2020
Small energy masking for improved neural network training for end-to-end speech recognition Chanwoo Kim Kwangyoun Kim S. Indurthi 18 8 0 15 Feb 2020
Abnormal respiratory patterns classifier may contribute to large-scale screening of people infected with COVID-19 in an accurate and unobtrusive manner Yunlu Wang Menghan Hu Qingli Li Xiao-Ping Zhang Guangtao Zhai Nan Yao 43 197 0 12 Feb 2020
Feature Importance Estimation with Self-Attention Networks Blaž Škrlj S. Džeroski Nada Lavrac Matej Petković FAtt MILM 34 51 0 11 Feb 2020
Single headed attention based sequence-to-sequence model for state-of-the-art results on Switchboard Zoltán Tüske G. Saon Kartik Audhkhasi Brian Kingsbury BDL 23 68 0 20 Jan 2020
Robust Speaker Recognition Using Speech Enhancement And Attention Model Yanpei Shi Qiang Huang Thomas Hain 27 25 0 14 Jan 2020
Does syntax need to grow on trees? Sources of hierarchical inductive bias in sequence-to-sequence networks R. Thomas McCoy Robert Frank Tal Linzen 25 106 0 10 Jan 2020
Character-Aware Attention-Based End-to-End Speech Recognition Zhong Meng Yashesh Gaur Jinyu Li Jiawei Liu 23 10 0 06 Jan 2020
Res3ATN -- Deep 3D Residual Attention Network for Hand Gesture Recognition in Videos Naina Dhingra A. Kunz 3DPC SLR 30 35 0 04 Jan 2020
Decoupled Attention Network for Text Recognition Tianwei Wang Yuanzhi Zhu Lianwen Jin Canjie Luo Xiaoxue Chen Y. Wu Qianying Wang Mingxiang Cai 61 252 0 21 Dec 2019
Generating Synthetic Audio Data for Attention-Based Speech Recognition Systems Nick Rossenbach Albert Zeyer Ralf Schluter Hermann Ney 18 83 0 19 Dec 2019
Self-attention with Functional Time Representation Learning Da Xu Chuanwei Ruan Sushant Kumar Evren Körpeoglu Kannan Achan AI4TS 23 114 0 28 Nov 2019
Minimum Bayes Risk Training of RNN-Transducer for End-to-End Speech Recognition Chao Weng Chengzhu Yu Jia Cui Chunlei Zhang Dong Yu 89 39 0 28 Nov 2019
SAVEHR: Self Attention Vector Representations for EHR based Personalized Chronic Disease Onset Prediction and Interpretability S. Mallya J. Overhage S. Bodapati Navneet Srivastava Sahika Genc OOD 20 1 0 13 Nov 2019
Teacher-Student Training for Robust Tacotron-based TTS Rui Liu Berrak Sisman Jingdong Li F. Bao Guanglai Gao Haizhou Li 19 38 0 07 Nov 2019
A comparison of end-to-end models for long-form speech recognition Chung-Cheng Chiu Wei Han Yu Zhang Ruoming Pang S. Kishchenko ... Anjuli Kannan Rohit Prabhavalkar Z. Chen Tara N. Sainath Yonghui Wu AuLLM 16 82 0 06 Nov 2019
Improving Generalization of Transformer for Speech Recognition with Parallel Schedule Sampling and Relative Positional Embedding Pan Zhou Ruchao Fan Wei Chen Jia Jia 11 26 0 01 Nov 2019
A comparative study of estimating articulatory movements from phoneme sequences and acoustic features Abhayjeet Singh Aravind Illa P. Ghosh 14 8 0 31 Oct 2019
Improving sequence-to-sequence speech recognition training with on-the-fly data augmentation T. Nguyen S. Stueker Jan Niehues A. Waibel 11 98 0 29 Oct 2019
Transformer-Transducer: End-to-End Speech Recognition with Self-Attention Ching-Feng Yeh Jay Mahadeokar Kaustubh Kalgaonkar Yongqiang Wang Duc Le Mahaveer Jain Kjell Schubert Christian Fuegen M. Seltzer 27 147 0 28 Oct 2019
Towards Online End-to-end Transformer Automatic Speech Recognition E. Tsunoo Yosuke Kashiwagi Toshiyuki Kumakura Shinji Watanabe 22 32 0 25 Oct 2019
Recognizing long-form speech using streaming end-to-end models A. Narayanan Rohit Prabhavalkar Chung-Cheng Chiu David Rybach Tara N. Sainath Trevor Strohman 29 129 0 24 Oct 2019
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Text-to-Speech Toolkit Tomoki Hayashi Ryuichi Yamamoto Katsuki Inoue Takenori Yoshimura Shinji Watanabe T. Toda K. Takeda Yu Zhang Xu Tan VLM 29 201 0 24 Oct 2019
A practical two-stage training strategy for multi-stream end-to-end speech recognition Ruizhi Li Gregory Sell Xiaofei Wang Shinji Watanabe H. Hermansky 19 7 0 23 Oct 2019
Generative Pre-Training for Speech with Autoregressive Predictive Coding Yu-An Chung James R. Glass SSL 29 173 0 23 Oct 2019
A Transformer with Interleaved Self-attention and Convolution for Hybrid Acoustic Models Liang Lu 19 4 0 23 Oct 2019
Location-Relative Attention Mechanisms For Robust Long-Form Speech Synthesis Eric Battenberg RJ Skerry-Ryan Soroosh Mariooryad Daisy Stanton David Kao Matt Shannon Tom Bagby 33 113 0 23 Oct 2019
Transformer ASR with Contextual Block Processing E. Tsunoo Yosuke Kashiwagi Toshiyuki Kumakura Shinji Watanabe 59 64 0 16 Oct 2019
Characterizing Deep Learning Training Workloads on Alibaba-PAI Mengdi Wang Chen Meng Guoping Long Chuan Wu Jun Yang Wei Lin Yangqing Jia 25 53 0 14 Oct 2019
Multilingual End-to-End Speech Translation Hirofumi Inaguma Kevin Duh Tatsuya Kawahara Shinji Watanabe LRM 28 86 0 01 Oct 2019
How to Evaluate Machine Learning Approaches for Combinatorial Optimization: Application to the Travelling Salesman Problem Antoine François Quentin Cappart Louis-Martin Rousseau 19 13 0 28 Sep 2019
End-to-End Code-Switching ASR for Low-Resourced Language Pairs Xianghu Yue Grandee Lee Emre Yilmaz Fang Deng Haizhou Li 11 30 0 27 Sep 2019
Improving RNN Transducer Modeling for End-to-End Speech Recognition Jinyu Li Rui Zhao Hu Hu Jiawei Liu 16 170 0 26 Sep 2019