AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline

16 September 2017

Hui Bu

Papers citing "AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline"

50 / 129 papers shown

Title
BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition Paige Tuttosi Mantaj Dhillon Luna Sang Shane Eastwood Poorvi Bhatia Quang Minh Dinh Avni Kapoor Yewon Jin Angelica Lim 34 0 0 30 Apr 2025
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng Shixuan Liu ... Zhiyong Yang Aoxiong Yin Ruibin Yuan Wenjie Qu Zaida Zhou AuLLM VLM 110 5 0 25 Apr 2025
M2R-Whisper: Multi-stage and Multi-scale Retrieval Augmentation for Enhancing Whisper Jiaming Zhou Songtao Zhao Jiabei He Hui Wang Wenjia Zeng Yong Chen Haoqin Sun Aobo Kong Yong Qin 57 1 0 13 Mar 2025
CleanMel: Mel-Spectrogram Enhancement for Improving Both Speech Quality and ASR Nian Shao Rui Zhou Pengyu Wang Xian Li Ying Fang Yujie Yang Xiaofei Li 41 0 0 27 Feb 2025
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision Che Liu Yingji Zhang D. Zhang Weijie Zhang Chenggong Gong ... André Freitas Qifan Wang Z. Xu Rongjuncheng Zhang Yong Dai AuLLM 76 0 0 26 Feb 2025
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance Qingpei Guo Kaiyou Song Zipeng Feng Ziping Ma Qinglong Zhang ... Yunxiao Sun Tai-WeiChang Jingdong Chen Ming Yang Jun Zhou MLLM VLM 90 3 0 26 Feb 2025
CR-CTC: Consistency regularization on CTC for improved speech recognition Zengwei Yao Wei Kang Xiaoyu Yang Fangjun Kuang Liyong Guo Han Zhu Zengrui Jin Zhaoqing Li Long Lin Daniel Povey 56 0 0 17 Feb 2025
Less is More for Synthetic Speech Detection in the Wild Ashi Garg Zexin Cai Henry Li Xinyuan Leibny Paola García-Perera Kevin Duh Sanjeev Khudanpur Matthew Wiesner Nicholas Andrews 74 0 0 17 Feb 2025
FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration Kai-Tuo Xu Feng-Long Xie Xu Tang Yao Hu 74 4 0 24 Jan 2025
The First VoicePrivacy Attacker Challenge Evaluation Plan N. Tomashenko Xiaoxiao Miao Emmanuel Vincent Junichi Yamagishi 131 2 0 09 Oct 2024
HDMoLE: Mixture of LoRA Experts with Hierarchical Routing and Dynamic Thresholds for Fine-Tuning LLM-based ASR Models Bingshen Mu Kun Wei Qijie Shao Yong Xu Lei Xie MoE 44 1 0 30 Sep 2024
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions Kai Chen Yunhao Gou Runhui Huang Zhili Liu Daxin Tan ... Qun Liu Jun Yao Lu Hou Hang Xu Hang Xu AuLLM MLLM VLM 82 21 0 26 Sep 2024
OmniBench: Towards The Future of Universal Omni-Language Models Yizhi Li Ge Zhang Yinghao Ma Ruibin Yuan Kang Zhu ... Zhaoxiang Zhang Zachary Liu Emmanouil Benetos Wenhao Huang Chenghua Lin LRM 54 11 0 23 Sep 2024
A Comprehensive Survey with Critical Analysis for Deepfake Speech Detection Lam Pham Phat Lam Dat Tran Hieu Tang Tin Nguyen Alexander Schindler Canh Vu Alexander Polonsky Canh Vu 56 3 0 23 Sep 2024
ASR Error Correction using Large Language Models Rao Ma Mengjie Qian Mark Gales Kate Knill KELM 46 1 0 14 Sep 2024
Lightweight Transducer Based on Frame-Level Criterion Genshun Wan Mengzhi Wang Tingzhi Mao Hang Chen Z. Ye 44 1 0 05 Sep 2024
ADD 2023: Towards Audio Deepfake Detection and Analysis in the Wild Jiangyan Yi Chu Yuan Zhang Jianhua Tao Chenglong Wang Xinrui Yan Yong Ren Hao Gu Junzuo Zhou 52 1 0 09 Aug 2024
Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning Shuai Wang Zheng-Shou Chen Kong Aik Lee Yan-min Qian Haizhou Li 39 4 0 21 Jul 2024
Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition Ye Bai Jingping Chen Jitong Chen Wei Chen Zhuo Chen ... Wanyi Zhang Yang Zhang Yawei Zhang Yijie Zheng Ming Zou AuLLM 52 19 0 05 Jul 2024
An efficient text augmentation approach for contextualized Mandarin speech recognition Naijun Zheng Xucheng Wan Kai Liu Ziqing Du Zhou Huan 40 1 0 14 Jun 2024
Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design Ming Gao Hang Chen Jun Du Xin Xu Hongxiao Guo Hui Bu Jianxing Yang Ming Li Chin-Hui Lee 42 2 0 14 Jun 2024
PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models Runyan Yang Huibao Yang Xiqing Zhang Tiantian Ye Ying Liu Yingying Gao Shilei Zhang Chao Deng Junlan Feng 36 0 0 12 Jun 2024
MaLa-ASR: Multimedia-Assisted LLM-Based ASR Guanrou Yang Ziyang Ma Fan Yu Zhifu Gao Shiliang Zhang Xie Chen AuLLM 44 2 0 09 Jun 2024
EfficientASR: Speech Recognition Network Compression via Attention Redundancy and Chunk-Level FFN Optimization Jianzong Wang Ziqi Liang Xulong Zhang Ning Cheng Jing Xiao 38 0 0 30 Apr 2024
OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification Yifan Peng Yui Sudo Muhammad Shakeel Shinji Watanabe VLM 39 17 0 20 Feb 2024
OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer Yifan Peng Jinchuan Tian William Chen Siddhant Arora Brian Yan ... Kwanghee Choi Jiatong Shi Xuankai Chang Jee-weon Jung Shinji Watanabe VLM OSLM 34 40 0 30 Jan 2024
UCorrect: An Unsupervised Framework for Automatic Speech Recognition Error Correction Jiaxin Guo Minghan Wang Xiaosong Qiao Daimeng Wei Hengchao Shang ... Yinglu Li Chang Su Min Zhang Shimin Tao Hao Yang 31 6 0 11 Jan 2024
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models Yunfei Chu Jin Xu Xiaohuan Zhou Qian Yang Shiliang Zhang Zhijie Yan Chang Zhou Jingren Zhou AuLLM 42 274 0 14 Nov 2023
CDSD: Chinese Dysarthria Speech Database Mengyi Sun Ming Gao Xinchen Kang Shiru Wang Jun Du Dengfeng Yao Su-Jing Wang 33 3 0 24 Oct 2023
Exploring RWKV for Memory Efficient and Low Latency Streaming ASR Keyu An Shiliang Zhang 31 4 0 26 Sep 2023
FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec Zhihao Du Shiliang Zhang Kai Hu Siqi Zheng 34 54 0 14 Sep 2023
VoiceBank-2023: A Multi-Speaker Mandarin Speech Corpus for Constructing Personalized TTS Systems for the Speech Impaired Jia-Jyu Su Pang-Chen Liao Yen-Ting Lin Wu-Hao Li Guan-Ting Liou ... Wei-Cheng Chen Jen-Chieh Chiang Wen-Yang Chang Pin-Han Lin Chen-Yu Chiang 26 1 0 27 Aug 2023
Bayes Risk Transducer: Transducer with Controllable Alignment Prediction Jinchuan Tian Jianwei Yu Hangting Chen Brian Yan Chao Weng Dong Yu Shinji Watanabe 37 1 0 19 Aug 2023
Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech Recognition Hanjing Zhu Dongji Gao Gaofeng Cheng Daniel Povey Pengyuan Zhang Yonghong Yan NoLa 38 4 0 12 Aug 2023
ApproBiVT: Lead ASR Models to Generalize Better Using Approximated Bias-Variance Tradeoff Guided Early Stopping and Checkpoint Averaging Fangyuan Wang Ming Hao Yuhai Shi Bo Xu MoMe 21 0 0 05 Aug 2023
CIF-T: A Novel CIF-based Transducer Architecture for Automatic Speech Recognition Tian-Hao Zhang Dinghao Zhou Guiping Zhong Jiaming Zhou Baoxiang Li 20 3 0 26 Jul 2023
TST: Time-Sparse Transducer for Automatic Speech Recognition Xiaohui Zhang Mangui Liang Zhengkun Tian Jiangyan Yi J. Tao 14 0 0 17 Jul 2023
SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding Titouan Parcollet Rogier van Dalen Shucong Zhang S. Bhattacharya 26 6 0 12 Jul 2023
Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition Xuefei Wang Yanhua Long Yijie Li Haoran Wei 34 4 0 20 Jun 2023
Pseudo-Siamese Network based Timbre-reserved Black-box Adversarial Attack in Speaker Identification Qing Wang Jixun Yao Ziqian Wang Pengcheng Guo Linfu Xie AAML 29 1 0 30 May 2023
Speaker anonymization using orthogonal Householder neural network Xiaoxiao Miao Xin Wang Erica Cooper Junichi Yamagishi N. Tomashenko BDL 26 18 0 30 May 2023
DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution Matías P. Pizarro D. Kolossa Asja Fischer AAML 43 1 0 26 May 2023
CopyNE: Better Contextual ASR by Copying Named Entities Shilin Zhou Zhenghua Li Yu Hong Hao Fei Zhefeng Wang Baoxing Huai 15 6 0 22 May 2023
Exploring Energy-based Language Models with Different Architectures and Training Methods for Speech Recognition Hong Liu Z. Lv Zhijian Ou Wenbo Zhao Qing Xiao 24 0 0 22 May 2023
A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks Yifan Peng Kwangyoun Kim Felix Wu Brian Yan Siddhant Arora William Chen Jiyang Tang Suwon Shon Prashant Sridhar Shinji Watanabe 29 17 0 18 May 2023
FunASR: A Fundamental End-to-End Speech Recognition Toolkit Zhifu Gao Zerui Li Jiaming Wang Haoneng Luo Xian Shi ... Yabin Li Lingyun Zuo Zhihao Du Zhangyu Xiao Shiliang Zhang 37 54 0 18 May 2023
ZeroPrompt: Streaming Acoustic Encoders are Zero-Shot Masked LMs Xingcheng Song Di Wu Binbin Zhang Zhendong Peng Bo Dang Fuping Pan Zhiyong Wu 43 20 0 18 May 2023
Self-regularised Minimum Latency Training for Streaming Transformer-based Speech Recognition Mohan Li R. Doddipatla Catalin Zorila 30 0 0 24 Apr 2023
Pyramid Multi-branch Fusion DCNN with Multi-Head Self-Attention for Mandarin Speech Recognition Kai Liu Hailiang Xiong Gangqiang Yang Zhengfeng Du Yewen Cao D. Shah 18 0 0 23 Mar 2023
Beyond Universal Transformer: block reusing with adaptor in Transformer for automatic speech recognition Haoyu Tang Zhaoyi Liu Chang Zeng Xinfeng Li 34 1 0 23 Mar 2023