SHAQ: Single Headed Attention with Quasi-Recurrence

18 August 2021

Papers citing "SHAQ: Single Headed Attention with Quasi-Recurrence"

2 / 2 papers shown

Title
Simplified Self-Attention for Transformer-based End-to-End Speech Recognition Haoneng Luo Shiliang Zhang Ming Lei Lei Xie 76 33 0 21 May 2020
Large Batch Optimization for Deep Learning: Training BERT in 76 minutes Yang You Jing Li Sashank J. Reddi Jonathan Hseu Sanjiv Kumar Srinadh Bhojanapalli Xiaodan Song J. Demmel Kurt Keutzer Cho-Jui Hsieh ODL 169 991 0 01 Apr 2019