Three Factors Influencing Minima in SGD

Three Factors Influencing Minima in SGD

13 November 2017

Stanislaw Jastrzebski

Amos Storkey

Papers citing "Three Factors Influencing Minima in SGD"

6 / 106 papers shown

Title
Understanding Batch Normalization Johan Bjorck Carla P. Gomes B. Selman Kilian Q. Weinberger 21 593 0 01 Jun 2018
Revisiting Small Batch Training for Deep Neural Networks Dominic Masters Carlo Luschi ODL 37 661 0 20 Apr 2018
Comparing Dynamics: Deep Neural Networks versus Glassy Systems Marco Baity-Jesi Levent Sagun Mario Geiger S. Spigler Gerard Ben Arous C. Cammarota Yann LeCun M. Wyart Giulio Biroli AI4CE 42 113 0 19 Mar 2018
A Walk with SGD Chen Xing Devansh Arpit Christos Tsirigotis Yoshua Bengio 27 118 0 24 Feb 2018
A Resizable Mini-batch Gradient Descent based on a Multi-Armed Bandit S. Cho Sunghun Kang Chang D. Yoo 34 1 0 17 Nov 2017
On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima N. Keskar Dheevatsa Mudigere J. Nocedal M. Smelyanskiy P. T. P. Tang ODL 308 2,892 0 15 Sep 2016