Inference acceleration for large language models using "stairs" assisted greedy generation

29 July 2024

Papers citing "Inference acceleration for large language models using "stairs" assisted greedy generation"

2 / 2 papers shown

Title
Fast Inference from Transformers via Speculative Decoding Yaniv Leviathan Matan Kalman Yossi Matias LRM 79 663 0 30 Nov 2022
Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization Shashi Narayan Shay B. Cohen Mirella Lapata AILaw 104 1,652 0 27 Aug 2018