A General and Efficient Training for Transformer via Token Expansion

31 March 2024

Papers citing "A General and Efficient Training for Transformer via Token Expansion"

2 / 2 papers shown

Title
Efficient On-device Training via Gradient Filtering Yuedong Yang Guihong Li R. Marculescu 39 18 0 01 Jan 2023
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 242 595 0 14 Jul 2021