Local SGD Optimizes Overparameterized Neural Networks in Polynomial Time

22 July 2021

Papers citing "Local SGD Optimizes Overparameterized Neural Networks in Polynomial Time"

3 / 3 papers shown

Title
EDiT: A Local-SGD-Based Efficient Distributed Training Method for Large Language Models Jialiang Cheng Ning Gao Yun Yue Zhiling Ye Jiadi Jiang Jian Sha OffRL 79 0 0 10 Dec 2024
On the Convergence of Shallow Neural Network Training with Randomly Masked Neurons Fangshuo Liao Anastasios Kyrillidis 43 16 0 05 Dec 2021
On the Proof of Global Convergence of Gradient Descent for Deep ReLU Networks with Linear Widths Quynh N. Nguyen 41 49 0 24 Jan 2021