SpeechMoE2: Mixture-of-Experts Model with Improved Routing

23 November 2021

Papers citing "SpeechMoE2: Mixture-of-Experts Model with Improved Routing"

7 / 7 papers shown

Title
LUPET: Incorporating Hierarchical Information Path into Multilingual ASR Wei Liu Jingyong Hou Dong Yang Muyong Cao Tan Lee 80 1 0 10 Jan 2025
$$\texttt{MoE-RBench}$: Towards Building Reliable Language Models with Sparse Mixture-of-Experts$ $\texttt{MoE-RBench}$ : Towards Building Reliable Language Models with Sparse Mixture-of-Experts Guanjie Chen Xinyu Zhao Tianlong Chen Yu Cheng MoE 76 5 0 17 Jun 2024
A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts Huy Nguyen Pedram Akbarian TrungTin Nguyen Nhat Ho 32 11 0 22 Oct 2023
Learning When to Trust Which Teacher for Weakly Supervised ASR Aakriti Agrawal Milind Rao Anit Kumar Sahu Gopinath Chennupati A. Stolcke 26 0 0 21 Jun 2023
Modular Deep Learning Jonas Pfeiffer Sebastian Ruder Ivan Vulić E. Ponti MoMe OOD 32 73 0 22 Feb 2023
3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech recognition Zhao You Shulin Feng Dan Su Dong Yu 22 9 0 07 Apr 2022
ST-MoE: Designing Stable and Transferable Sparse Expert Models Barret Zoph Irwan Bello Sameer Kumar Nan Du Yanping Huang J. Dean Noam M. Shazeer W. Fedus MoE 24 182 0 17 Feb 2022