Branchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and Understanding

6 July 2022

Papers citing "Branchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and Understanding"

27 / 77 papers shown

Title
How Much Temporal Long-Term Context is Needed for Action Segmentation? Emad Bahrami Rad Gianpiero Francesca Juergen Gall ViT 32 27 0 22 Aug 2023
Improving BERT with Hybrid Pooling Network and Drop Mask Qian Chen Wen Wang Qinglin Zhang Chong Deng Ma Yukun Siqi Zheng 24 1 0 14 Jul 2023
Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study Zeping Min Jinbo Wang AuLLM 57 13 0 13 Jul 2023
SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding Titouan Parcollet Rogier van Dalen Shucong Zhang S. Bhattacharya 35 6 0 12 Jul 2023
Research on an improved Conformer end-to-end Speech Recognition Model with R-Drop Structure Weidong Ji Shijie Zan Guohui Zhou Xu Wang SyDa 32 1 0 14 Jun 2023
Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with Academic Compute William Chen Xuankai Chang Yifan Peng Zhaoheng Ni Soumi Maiti Shinji Watanabe SSL 44 25 0 11 Jun 2023
HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition Florian Mai Juan Pablo Zuluaga Titouan Parcollet P. Motlícek 41 10 0 29 May 2023
DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech Models Yifan Peng Yui Sudo Muhammad Shakeel Shinji Watanabe 44 39 0 28 May 2023
CIF-PT: Bridging Speech and Text Representations for Spoken Language Understanding via Continuous Integrate-and-Fire Pre-Training Linhao Dong Zhecheng An Peihao Wu Jun Zhang Lu Lu Zejun Ma 29 6 0 27 May 2023
InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition Zhibing Lai Tianren Zhang Qi Liu Xinyuan Qian Li-Fang Wei Songlu Chen Feng Chen Xu-Cheng Yin 35 2 0 24 May 2023
Rethinking Speech Recognition with A Multimodal Perspective via Acoustic and Semantic Cooperative Decoding Tianren Zhang Haibo Qin Zhibing Lai Songlu Chen Qi Liu Feng Chen Xinyuan Qian Xu-Cheng Yin 43 0 0 23 May 2023
GNCformer Enhanced Self-attention for Automatic Speech Recognition Junlong Li Z. Duan S. Li X. Yu G. Yang 20 1 0 22 May 2023
Multi-Head State Space Model for Speech Recognition Yassir Fathullah Chunyang Wu Yuan Shangguan Junteng Jia Wenhan Xiong ... Chunxi Liu Yangyang Shi Ozlem Kalinli M. Seltzer Mark Gales 34 13 0 21 May 2023
A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task Learning Jiyang Tang William Chen Xuankai Chang Shinji Watanabe B. MacWhinney 29 10 0 19 May 2023
A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks Yifan Peng Kwangyoun Kim Felix Wu Brian Yan Siddhant Arora William Chen Jiyang Tang Suwon Shon Prashant Sridhar Shinji Watanabe 55 17 0 18 May 2023
Dynamic Chunk Convolution for Unified Streaming and Non-Streaming Conformer ASR Xilai Li Goeric Huybrechts S. Ronanki Jeffrey J. Farris S. Bodapati 45 6 0 18 Apr 2023
ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit Brian Yan Jiatong Shi Yun Tang Hirofumi Inaguma Yifan Peng ... Zhaoheng Ni Moto Hira Soumi Maiti J. Pino Shinji Watanabe 38 20 0 10 Apr 2023
I3D: Transformer architectures with input-dependent dynamic depth for speech recognition Yifan Peng Jaesong Lee Shinji Watanabe 43 20 0 14 Mar 2023
End-to-End Speech Recognition: A Survey Rohit Prabhavalkar Takaaki Hori Tara N. Sainath Ralf Schluter Shinji Watanabe VLM 31 154 0 03 Mar 2023
Structured Pruning of Self-Supervised Pre-trained Models for Speech Recognition and Understanding Yifan Peng Kwangyoun Kim Felix Wu Prashant Sridhar Shinji Watanabe 39 36 0 27 Feb 2023
Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical Distillation Minglun Han Feilong Chen Jing Shi Shuang Xu Bo Xu VLM 56 12 0 30 Jan 2023
Structured State Space Decoder for Speech Recognition and Synthesis Koichi Miyazaki Masato Murata Tomoki Koriyama 57 12 0 31 Oct 2022
E-Branchformer: Branchformer with Enhanced merging for speech recognition Kwangyoun Kim Felix Wu Yifan Peng Jing Pan Prashant Sridhar Kyu Jeong Han Shinji Watanabe 82 106 0 30 Sep 2022
I2CR: Improving Noise Robustness on Keyword Spotting Using Inter-Intra Contrastive Regularization Dianwen Ng J. Yip Tanmay Surana Zhao Yang Chong Zhang Yukun Ma Chongjia Ni Chng Eng Siong B. Ma 45 6 0 14 Sep 2022
Uconv-Conformer: High Reduction of Input Sequence Length for End-to-End Speech Recognition A. Andrusenko R. Nasretdinov A. Romanenko 37 18 0 16 Aug 2022
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 320 2,626 0 04 May 2021
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 353 2,041 0 28 Jul 2020