Block Transformer: Global-to-Local Language Modeling for Fast Inference

Block Transformer: Global-to-Local Language Modeling for Fast Inference

4 June 2024

Se-Young Yun

ArXiv (abs)PDF HTML Github (155★)

Papers citing "Block Transformer: Global-to-Local Language Modeling for Fast Inference"

6 / 6 papers shown

Title
Self-Training Elicits Concise Reasoning in Large Language Models Tergel Munkhbat Namgyu Ho S. Kim Yongjin Yang Yujin Kim Se-Young Yun ReLM LRM 179 37 0 27 Feb 2025
MambaTron: Efficient Cross-Modal Point Cloud Enhancement using Aggregate Selective State Space Modeling Sai Tarun Inaganti Gennady Petrenko Mamba 143 1 0 25 Jan 2025
Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA Sangmin Bae Adam Fisch Hrayr Harutyunyan Ziwei Ji Seungyeon Kim Tal Schuster KELM 139 7 0 28 Oct 2024
MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder Khai-Nguyen Nguyen Phuc Phan Tan-Hanh Pham Bach Phan Tat Minh-Huong Ngo Chris Ngo Thanh Nguyen-Tang Truong-Son Hy LM&MA 101 0 0 21 Sep 2024
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty Yuhui Li Fangyun Wei Chao Zhang Hongyang R. Zhang 195 165 0 26 Jan 2024
Fast Transformer Decoding: One Write-Head is All You Need Noam M. Shazeer 174 479 0 06 Nov 2019