Accelerating Large Batch Training via Gradient Signal to Noise Ratio (GSNR)

24 September 2023

Papers citing "Accelerating Large Batch Training via Gradient Signal to Noise Ratio (GSNR)"

6 / 6 papers shown

Title
CGLearn: Consistent Gradient-Based Learning for Out-of-Distribution Generalization Jawad Chowdhury G. Terejanu AI4CE BDL OOD OODD 58 0 0 09 Nov 2024
Efficient Sharpness-aware Minimization for Improved Training of Neural Networks Jiawei Du Hanshu Yan Jiashi Feng Qiufeng Wang Liangli Zhen Rick Siow Mong Goh Vincent Y. F. Tan AAML 113 132 0 07 Oct 2021
DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training Kun Yuan Yiming Chen Xinmeng Huang Yingya Zhang Pan Pan Yinghui Xu W. Yin MoE 60 61 0 24 Apr 2021
On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima N. Keskar Dheevatsa Mudigere J. Nocedal M. Smelyanskiy P. T. P. Tang ODL 310 2,896 0 15 Sep 2016
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 310 39,252 0 01 Sep 2014
Stochastic Gradient Descent for Non-smooth Optimization: Convergence Results and Optimal Averaging Schemes Ohad Shamir Tong Zhang 104 572 0 08 Dec 2012