On uniform-in-time diffusion approximation for stochastic gradient descent

11 July 2022

Papers citing "On uniform-in-time diffusion approximation for stochastic gradient descent"

12 / 12 papers shown

Title
Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD Dmitry Dudukalov Artem Logachov Vladimir Lotov Timofei Prasolov Evgeny Prokopenko Anton Tarasenko 29 0 0 24 May 2025
Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics Yixin Wu Rui Luo Chen Zhang Jun Wang Yaodong Yang 71 7 0 20 Sep 2021
On the Origin of Implicit Regularization in Stochastic Gradient Descent Samuel L. Smith Benoit Dherin David Barrett Soham De MLT 32 204 0 28 Jan 2021
On the Generalization Benefit of Noise in Stochastic Gradient Descent Samuel L. Smith Erich Elsen Soham De MLT 49 99 0 26 Jun 2020
Uniform-in-Time Weak Error Analysis for Stochastic Gradient Descent Algorithms via Diffusion Approximation Yuanyuan Feng Tingran Gao Lei Li Jian‐Guo Liu Yulong Lu 45 25 0 02 Feb 2019
A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Networks Umut Simsekli Levent Sagun Mert Gurbuzbalaban 82 247 0 18 Jan 2019
Stochastic Modified Equations and Dynamics of Stochastic Gradient Algorithms I: Mathematical Foundations Qianxiao Li Cheng Tai E. Weinan 95 150 0 05 Nov 2018
Don't Use Large Mini-Batches, Use Local SGD Tao R. Lin Sebastian U. Stich Kumar Kshitij Patel Martin Jaggi 111 433 0 22 Aug 2018
An Alternative View: When Does SGD Escape Local Minima? Robert D. Kleinberg Yuanzhi Li Yang Yuan MLT 67 317 0 17 Feb 2018
Optimization Methods for Large-Scale Machine Learning Léon Bottou Frank E. Curtis J. Nocedal 211 3,202 0 15 Jun 2016
Stochastic modified equations and adaptive stochastic gradient algorithms Qianxiao Li Cheng Tai E. Weinan 59 284 0 19 Nov 2015
ADADELTA: An Adaptive Learning Rate Method Matthew D. Zeiler ODL 132 6,623 0 22 Dec 2012