Attention-Based Models for Speech Recognition

24 June 2015

Papers citing "Attention-Based Models for Speech Recognition"

50 / 394 papers shown

Title
DDSupport: Language Learning Support System that Displays Differences and Distances from Model Speech Kazuki Kawamura Jun Rekimoto 33 0 0 08 Dec 2022
Neural Transducer Training: Reduced Memory Consumption with Sample-wise Computation Stefan Braun Erik McDermott Roger Hsiao 40 1 0 29 Nov 2022
An Extreme-Adaptive Time Series Prediction Model Based on Probability-Enhanced LSTM Neural Networks Yanhong Li Jack L. Xu D. Anastasiu AI4TS 8 13 0 29 Nov 2022
Proceedings of the 4th International Workshop on Reading Music Systems Jorge Calvo-Zaragoza Alexander Pacha Elona Shatri 27 0 0 23 Nov 2022
Self-Transriber: Few-shot Lyrics Transcription with Self-training Xiaoxue Gao Xianghu Yue Haizhou Li 30 7 0 18 Nov 2022
A Machine Learning-based Framework for Predictive Maintenance of Semiconductor Laser for Optical Communication K. Abdelli H. Griesser S. Pachnicke 13 11 0 05 Nov 2022
Multi-blank Transducers for Speech Recognition Hainan Xu Fei Jia Somshubra Majumdar Shinji Watanabe Boris Ginsburg 28 11 0 04 Nov 2022
Minimum Latency Training of Sequence Transducers for Streaming End-to-End Speech Recognition Yusuke Shinohara Shinji Watanabe AI4TS 23 9 0 04 Nov 2022
Fraudulent User Detection Via Behavior Information Aggregation Network (BIAN) On Large-Scale Financial Social Network Hanyi Hu Long Zhang Shuang Li Zhi Liu Yao Yang Chongning Na 21 0 0 04 Nov 2022
Learning utterance-level representations through token-level acoustic latents prediction for Expressive Speech Synthesis Karolos Nikitaras Konstantinos Klapsas Nikolaos Ellinas Georgia Maniati June Sig Sung Inchul Hwang S. Raptis Aimilios Chalamandaris Pirros Tsiakoulis 19 0 0 01 Nov 2022
Joint Audio/Text Training for Transformer Rescorer of Streaming Speech Recognition Suyoun Kim Ke Li Lucas Kabela Rongqing Huang Jiedan Zhu Ozlem Kalinli Duc Le 27 8 0 31 Oct 2022
Monotonic segmental attention for automatic speech recognition Albert Zeyer Robin Schmitt Wei Zhou Ralf Schluter Hermann Ney 16 8 0 26 Oct 2022
The NPU-ASLP System for The ISCSLP 2022 Magichub Code-Swiching ASR Challenge Yuhao Liang Pei-Ning Chen F. Yu Xinfa Zhu Tianyi Xu Linfu Xie 28 0 0 26 Oct 2022
Improving Semi-supervised End-to-end Automatic Speech Recognition using CycleGAN and Inter-domain Losses C. Li Ngoc Thang Vu 21 2 0 20 Oct 2022
End-to-End Integration of Speech Recognition, Dereverberation, Beamforming, and Self-Supervised Learning Representation Yoshiki Masuyama Xuankai Chang Samuele Cornell Shinji Watanabe Nobutaka Ono 17 19 0 19 Oct 2022
Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval Xuri Ge Fuhai Chen Songpei Xu Fuxiang Tao J. Jose 30 26 0 17 Oct 2022
LeVoice ASR Systems for the ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge Yan Jia Mihee Hong Jingyu Hou Kailong Ren Sifan Ma Jin Wang Fangzhen Peng Yinglin Ji Lin Yang Junjie Wang 25 1 0 14 Oct 2022
Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods Evan Crothers Nathalie Japkowicz H. Viktor DeLMO 50 107 0 13 Oct 2022
ConvTransSeg: A Multi-resolution Convolution-Transformer Network for Medical Image Segmentation Zhendi Gong Andrew P. French Guoping Qiu Xin Chen ViT MedIm 38 6 0 13 Oct 2022
CTC Alignments Improve Autoregressive Translation Brian Yan Siddharth Dalmia Yosuke Higuchi Graham Neubig Florian Metze A. Black Shinji Watanabe 46 33 0 11 Oct 2022
ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers for Streaming Speech Recognition Martin H. Radfar Rohit Barnwal R. Swaminathan Feng-Ju Chang Grant P. Strimel Nathan Susanj Athanasios Mouchtaris 34 13 0 29 Sep 2022
TokenFlow: Rethinking Fine-grained Cross-modal Alignment in Vision-Language Retrieval Xiaohan Zou Changqiao Wu Lele Cheng Zhongyuan Wang 94 6 0 28 Sep 2022
Relaxed Attention for Transformer Models Timo Lohrenz Björn Möller Zhengyang Li Tim Fingscheidt KELM 29 11 0 20 Sep 2022
Analysis of Self-Attention Head Diversity for Conformer-based Automatic Speech Recognition Kartik Audhkhasi Yinghui Huang Bhuvana Ramabhadran Pedro J. Moreno 24 3 0 13 Sep 2022
Recognition of Handwritten Chinese Text by Segmentation: A Segment-annotation-free Approach Dezhi Peng Lianwen Jin Weihong Ma C. Xie Hesuo Zhang Shenggao Zhu Jing Li 53 39 0 29 Jul 2022
Transfer Learning of wav2vec 2.0 for Automatic Lyric Transcription Longshen Ou Xiangming Gu Ye Wang 30 21 0 20 Jul 2022
Improving Streaming End-to-End ASR on Transformer-based Causal Models with Encoder States Revision Strategies Zehan Li Haoran Miao Keqi Deng Gaofeng Cheng Sanli Tian Ta Li Yonghong Yan KELM 27 4 0 06 Jul 2022
Mix and Match: An Empirical Study on Training Corpus Composition for Polyglot Text-To-Speech (TTS) Ziyao Zhang Alessio Falai Ariadna Sánchez Orazio Angelini K. Yanagisawa 29 4 0 04 Jul 2022
ScePT: Scene-consistent, Policy-based Trajectory Predictions for Planning Yuxiao Chen Boris Ivanovic Marco Pavone 43 77 0 18 Jun 2022
Contextual Adapters for Personalized Speech Recognition in Neural Transducers Kanthashree Mysore Sathyendra Thejaswi Muniyappa Feng-Ju Chang Jing Liu Jinru Su Grant P. Strimel Athanasios Mouchtaris Siegfried Kunzmann 19 75 0 26 May 2022
Joint Training of Speech Enhancement and Self-supervised Model for Noise-robust ASR Qiu-shi Zhu Jie Zhang Zitian Zhang Lirong Dai 43 15 0 26 May 2022
Improving CTC-based ASR Models with Gated Interlayer Collaboration Yuting Yang Yuke Li Binbin Du 34 11 0 25 May 2022
Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition Yuting Yang Binbin Du Yuke Li 26 1 0 24 May 2022
Minimising Biasing Word Errors for Contextual ASR with the Tree-Constrained Pointer Generator Guangzhi Sun C. Zhang P. Woodland 32 14 0 18 May 2022
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Jeong Han Ryan T. McDonald Kilian Q. Weinberger Yoav Artzi SyDa 48 37 0 02 May 2022
How does a spontaneously speaking conversational agent affect user behavior? Takahisa Iizuka H. Mori 13 2 0 02 May 2022
An Extensive Data Processing Pipeline for MIMIC-IV Mehak Gupta Brennan M Gallamoza Nicolas Cutrona Pranjal Dhakal Raphael Poulain Rahmatollah Beheshti AI4TS 32 41 0 29 Apr 2022
Attention Mechanism in Neural Networks: Where it Comes and Where it Goes Derya Soydaner 3DV 44 150 0 27 Apr 2022
Modeling Dynamic User Preference via Dictionary Learning for Sequential Recommendation Chao Chen Dongsheng Li Junchi Yan Xiaokang Yang 13 15 0 02 Apr 2022
Learning Self-Modulating Attention in Continuous Time Space with Applications to Sequential Recommendation Chao Chen Haoyu Geng Nianzu Yang Junchi Yan Daiyue Xue Jianping Yu Xiaokang Yang HAI AI4TS 27 11 0 30 Mar 2022
4-bit Conformer with Native Quantization Aware Training for Speech Recognition Shaojin Ding Phoenix Meadowlark Yanzhang He Lukasz Lew Shivani Agrawal Oleg Rybakov MQ 31 32 0 29 Mar 2022
Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition With Emformer J. Sun Guiping Zhong Dinghao Zhou Baoxiang Li 21 0 0 29 Mar 2022
WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit Binbin Zhang Di Wu Zhendong Peng Xingcheng Song Zhuoyuan Yao Hang Lv Linfu Xie Chao Yang Fuping Pan Jianwei Niu VLM 29 94 0 29 Mar 2022
A General Survey on Attention Mechanisms in Deep Learning Gianni Brauwers Flavius Frasincar 31 296 0 27 Mar 2022
Disentangleing Content and Fine-grained Prosody Information via Hybrid ASR Bottleneck Features for Voice Conversion Xintao Zhao Feng Liu Changhe Song Zhiyong Wu Shiyin Kang Deyi Tuo Helen Meng 21 20 0 24 Mar 2022
An Attention-based Method for Action Unit Detection at the 3rd ABAW Competition Duy Le Hoai Eunchae Lim Eunbin Choi Si-Yeol Kim Sudarshan Pant Gueesang Lee Soohyun Kim Hyung-Jeong Yang CVBM 33 7 0 23 Mar 2022
Towards 3D Scene Understanding by Referring Synthetic Models Runnan Chen Xinge Zhu Nenglun Chen Dawei Wang Wei Li Yuexin Ma Ruigang Yang Wenping Wang 3DPC 30 6 0 20 Mar 2022
Transformer-based Streaming ASR with Cumulative Attention Mohan Li Shucong Zhang Catalin Zorila R. Doddipatla 27 9 0 11 Mar 2022
Adversarial Attacks on Speech Recognition Systems for Mission-Critical Applications: A Survey Ngoc Dung Huynh Mohamed Reda Bouadjenek Imran Razzak Kevin Lee Chetan Arora Ali Hassani A. Zaslavsky AAML 34 6 0 22 Feb 2022
Non-Autoregressive ASR with Self-Conditioned Folded Encoders Tatsuya Komatsu 28 7 0 17 Feb 2022