Attention-Based Models for Speech Recognition

24 June 2015

Papers citing "Attention-Based Models for Speech Recognition"

50 / 395 papers shown

Title
Neural Code Summarization Piyush Shrivastava 25 2 0 26 Feb 2021
Revisiting Classification Perspective on Scene Text Recognition Hongxiang Cai Jun Sun Yichao Xiong 24 10 0 22 Feb 2021
Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and language Models for Intent Classification Bidisha Sharma Maulik C. Madhavi Haizhou Li 24 19 0 15 Feb 2021
Robust Classification using Hidden Markov Models and Mixtures of Normalizing Flows Anubhab Ghosh Antoine Honoré Dong Liu G. Henter S. Chatterjee BDL VLM 35 7 0 15 Feb 2021
VARA-TTS: Non-Autoregressive Text-to-Speech Synthesis based on Very Deep VAE with Residual Attention Peng Liu Yuewen Cao Songxiang Liu Na Hu Guangzhi Li Chao Weng Dan Su 42 22 0 12 Feb 2021
Arabic Speech Recognition by End-to-End, Modular Systems and Human A. Hussein Shinji Watanabe Ahmed M. Ali VLM 16 47 0 21 Jan 2021
CIF-based Collaborative Decoding for End-to-end Contextual Speech Recognition Minglun Han Linhao Dong Shiyu Zhou Bo Xu 21 21 0 17 Dec 2020
GTA: Global Temporal Attention for Video Action Understanding Bo He Xitong Yang Zuxuan Wu Hao Chen Ser-Nam Lim Abhinav Shrivastava ViT 33 27 0 15 Dec 2020
A review of on-device fully neural end-to-end automatic speech recognition algorithms Chanwoo Kim Dhananjaya N. Gowda Dongsoo Lee Jiyeon Kim Ankur Kumar Sungsoo Kim Abhinav Garg C. Han 27 27 0 14 Dec 2020
Less Is More: Improved RNN-T Decoding Using Limited Label Context and Path Merging Rohit Prabhavalkar Yanzhang He David Rybach S. Campbell A. Narayanan Trevor Strohman Tara N. Sainath 49 35 0 12 Dec 2020
Deep Learning Approach for Matrix Completion Using Manifold Learning Saeid Mehrdad M. Kahaei 24 6 0 11 Dec 2020
End-to-end Handwritten Paragraph Text Recognition Using a Vertical Attention Network Denis Coquenet Clément Chatelain Thierry Paquet AI4TS 38 78 0 07 Dec 2020
Unsupervised Domain Adaptation for Speech Recognition via Uncertainty Driven Self-Training Sameer Khurana Niko Moritz Takaaki Hori Jonathan Le Roux 24 54 0 26 Nov 2020
Streaming end-to-end multi-talker speech recognition Liang Lu Naoyuki Kanda Jinyu Li Jiawei Liu 13 41 0 26 Nov 2020
Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for 3D Reconstruction Anzhu Yu Wenyue Guo Bing Liu Xin Chen Xin Wang Xuefeng Cao Bingchuan Jiang 3DV 26 64 0 25 Nov 2020
Using Synthetic Audio to Improve The Recognition of Out-Of-Vocabulary Words in End-To-End ASR Systems Xianrui Zheng Yulan Liu Deniz Gunceler D. Willett 17 78 0 23 Nov 2020
Deep Shallow Fusion for RNN-T Personalization Duc Le Gil Keren Julian Chan Jay Mahadeokar Christian Fuegen M. Seltzer 21 77 0 16 Nov 2020
Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis Ron J. Weiss RJ Skerry-Ryan Eric Battenberg Soroosh Mariooryad Diederik P. Kingma 24 98 0 06 Nov 2020
A Multi-Channel Temporal Attention Convolutional Neural Network Model for Environmental Sound Classification You Wang Chuyao Feng David V. Anderson 11 17 0 04 Nov 2020
Internal Language Model Estimation for Domain-Adaptive End-to-End Speech Recognition Zhong Meng S. Parthasarathy Eric Sun Yashesh Gaur Naoyuki Kanda Liang Lu Xie Chen Rui Zhao Jinyu Li Jiawei Liu AuLLM 19 107 0 03 Nov 2020
Cascaded encoders for unifying streaming and non-streaming ASR A. Narayanan Tara N. Sainath Ruoming Pang Jiahui Yu Chung-Cheng Chiu Rohit Prabhavalkar Ehsan Variani Trevor Strohman AuLLM 8 85 0 27 Oct 2020
Multitask Training with Text Data for End-to-End Speech Recognition Peidong Wang Tara N. Sainath Ron J. Weiss 16 27 0 27 Oct 2020
Improved Neural Language Model Fusion for Streaming Recurrent Neural Network Transducer Suyoun Kim Shangguan Yuan Jay Mahadeokar A. Bruguier Christian Fuegen M. Seltzer Duc Le 15 28 0 26 Oct 2020
Confidence Estimation for Attention-based Sequence-to-sequence Models for Speech Recognition Qiujia Li David Qiu Yu Zhang Bo-wen Li Yanzhang He P. Woodland Liangliang Cao Trevor Strohman 12 46 0 22 Oct 2020
Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset Xie Chen Yu-Huan Wu Zhenghao Wang Shujie Liu Jinyu Li 22 169 0 22 Oct 2020
A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks Yun Tang J. Pino Changhan Wang Xutai Ma Dmitriy Genzel 26 73 0 21 Oct 2020
Cascaded Models With Cyclic Feedback For Direct Speech Translation Tsz Kin Lam Shigehiko Schamoni Stefan Riezler 32 12 0 21 Oct 2020
An Empirical Study for Vietnamese Constituency Parsing with Pre-training Tuan-Vi Tran Xuan-Thien Pham Duc-Vu Nguyen Kiet Van Nguyen Ngan Luu-Thuy Nguyen 44 4 0 19 Oct 2020
Lightweight End-to-End Speech Recognition from Raw Audio Data Using Sinc-Convolutions Ludwig Kurzinger Nicolas Lindae Palle Klewitz Gerhard Rigoll 27 5 0 15 Oct 2020
Representation Learning for Sequence Data with Deep Autoencoding Predictive Components Junwen Bai Weiran Wang Yingbo Zhou Caiming Xiong SSL AI4TS 27 12 0 07 Oct 2020
Improve Transformer Models with Better Relative Position Embeddings Zhiheng Huang Davis Liang Peng Xu Bing Xiang ViT 17 127 0 28 Sep 2020
Attention-based Fully Gated CNN-BGRU for Russian Handwritten Text Abdelrahman Abdallah Mohamed Hamada D. Nurseitov 27 42 0 12 Aug 2020
Distilling the Knowledge of BERT for Sequence-to-Sequence ASR Hayato Futami Hirofumi Inaguma Sei Ueno Masato Mimura S. Sakai Tatsuya Kawahara 24 50 0 09 Aug 2020
Pretraining Techniques for Sequence-to-Sequence Voice Conversion Wen-Chin Huang Tomoki Hayashi Yi-Chiao Wu Hirokazu Kameoka T. Toda 27 38 0 07 Aug 2020
Federated Transfer Learning with Dynamic Gradient Aggregation Dimitrios Dimitriadis K. Kumatani R. Gmyr Yashesh Gaur Sefik Emre Eskimez FedML 24 15 0 06 Aug 2020
Audiovisual Speech Synthesis using Tacotron2 Ahmed Hussen Abdelaziz Anushree Prasanna Kumar Chloe Seivwright Gabriele Fanelli Justin Binder Y. Stylianou S. Kajarekar 20 15 0 03 Aug 2020
Tensor Low-Rank Reconstruction for Semantic Segmentation Wanli Chen Xinge Zhu Ruoqi Sun Junjun He Ruiyu Li Xiaoyong Shen Bei Yu ViT 11 56 0 02 Aug 2020
A Transfer Learning End-to-End ArabicText-To-Speech (TTS) Deep Architecture Fady K. Fahmy M. Khalil Hazem M. Abbas 41 20 0 22 Jul 2020
Streaming Transformer ASR with Blockwise Synchronous Beam Search E. Tsunoo Yosuke Kashiwagi Shinji Watanabe 22 11 0 25 Jun 2020
"Notic My Speech" -- Blending Speech Patterns With Multimedia Dhruva Sahrawat Yaman Kumar Singla Shashwat Aggarwal Yifang Yin R. Shah Roger Zimmermann 33 3 0 12 Jun 2020
MultiSpeech: Multi-Speaker Text to Speech with Transformer Mingjian Chen Xu Tan Yi Ren Jin Xu Hao Sun Sheng Zhao Tao Qin Tie-Yan Liu 21 109 0 08 Jun 2020
Pedestrian Tracking with Gated Recurrent Units and Attention Mechanisms Mahdi Elhousni Xinming Huang 16 0 0 31 May 2020
Simplified Self-Attention for Transformer-based End-to-End Speech Recognition Haoneng Luo Shiliang Zhang Ming Lei Lei Xie 35 33 0 21 May 2020
Investigation of learning abilities on linguistic features in sequence-to-sequence text-to-speech synthesis Yusuke Yasuda Xin Wang Junichi Yamagishi AI4TS 19 31 0 20 May 2020
A Comparison of Label-Synchronous and Frame-Synchronous End-to-End Models for Speech Recognition Linhao Dong Cheng Yi Jianzong Wang Shiyu Zhou Shuang Xu X. Jia Bo Xu 36 17 0 20 May 2020
Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict Yosuke Higuchi Shinji Watanabe Nanxin Chen Tetsuji Ogawa Tetsunori Kobayashi 17 137 0 18 May 2020
Attention-based Transducer for Online Speech Recognition Bin Wang Yan Yin Hui-Ching Lin 18 4 0 18 May 2020
Many-to-Many Voice Transformer Network Hirokazu Kameoka Wen-Chin Huang Kou Tanaka Takuhiro Kaneko Nobukatsu Hojo T. Toda ViT 30 30 0 18 May 2020
AccentDB: A Database of Non-Native English Accents to Assist Neural Speech Recognition Afroz Ahamad Ankit Anand Pranesh Bhargava 19 22 0 16 May 2020
Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech Recognition Zhengkun Tian Jiangyan Yi J. Tao Ye Bai Shuai Zhang Zhengqi Wen 16 54 0 16 May 2020