Modern Distributed Data-Parallel Large-Scale Pre-training Strategies For NLP models

13 June 2022

Papers citing "Modern Distributed Data-Parallel Large-Scale Pre-training Strategies For NLP models"

1 / 1 papers shown

Title
Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging Shi Jie Yu Sehyun Choi MoMe 61 0 0 23 Apr 2025