Accelerate Model Parallel Training by Using Efficient Graph Traversal Order in Device Placement

21 January 2022

Papers citing "Accelerate Model Parallel Training by Using Efficient Graph Traversal Order in Device Placement"

2 / 2 papers shown

Title
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism M. Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 245 1,826 0 17 Sep 2019
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,746 0 26 Sep 2016