Can Single-Shuffle SGD be Better than Reshuffling SGD and GD?

12 March 2021

Papers citing "Can Single-Shuffle SGD be Better than Reshuffling SGD and GD?"

7 / 7 papers shown

Title
Rapid Overfitting of Multi-Pass Stochastic Gradient Descent in Stochastic Convex Optimization Shira Vansover-Hager Tomer Koren Roi Livni 39 0 0 13 May 2025
AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms Rustem Islamov M. Safaryan Dan Alistarh FedML 29 12 0 31 Oct 2023
On Convergence of Incremental Gradient for Non-Convex Smooth Functions Anastasia Koloskova N. Doikov Sebastian U. Stich Martin Jaggi 36 2 0 30 May 2023
On the Training Instability of Shuffling SGD with Batch Normalization David Wu Chulhee Yun S. Sra 32 4 0 24 Feb 2023
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines Alexander Isenko R. Mayer Jeffrey Jedele Hans-Arno Jacobsen 19 23 0 17 Feb 2022
Can Stochastic Gradient Langevin Dynamics Provide Differential Privacy for Deep Learning? Guy Heller Ethan Fetaya BDL 38 3 0 11 Oct 2021
Random Shuffling Beats SGD Only After Many Epochs on Ill-Conditioned Problems Itay Safran Ohad Shamir 33 19 0 12 Jun 2021