v1v2 (latest)

DropCompute: simple and more robust distributed synchronous training via compute variance reduction

18 June 2023

Papers citing "DropCompute: simple and more robust distributed synchronous training via compute variance reduction"

2 / 2 papers shown

Title
Accelerating AllReduce with a Persistent Straggler Arjun Devraj Eric Ding Abhishek Vijaya Kumar Robert Kleinberg Rachee Singh 56 0 0 29 May 2025
Understanding Stragglers in Large Model Training Using What-if Analysis Jinkun Lin Ziheng Jiang Zuquan Song Sida Zhao Menghan Yu ... Shuguang Wang Yanghua Peng Xin Liu Aurojit Panda Jinyang Li 142 1 0 09 May 2025