Efficient Algorithms for Device Placement of DNN Graph Operators

29 June 2020

Fanny Nina Paravecino

ArXiv PDF HTML

Papers citing "Efficient Algorithms for Device Placement of DNN Graph Operators"

28 / 28 papers shown

Title
Benchmarking Ultra-Low-Power $μ$ NPUs Josh Millar Yushan Huang Sarab Sethi Hamed Haddadi Anil Madhavapeddy BDL 61 0 0 28 Mar 2025
Routing for Large ML Models Ofir Cohen Jose Yallouz Michael Schapira Shahar Belkar Tal Mizrahi 63 0 0 07 Mar 2025
Efficient Training of Large Language Models on Distributed Infrastructures: A Survey Jiangfei Duan Shuo Zhang Zerui Wang Lijuan Jiang Wenwen Qu ... Dahua Lin Yonggang Wen Xin Jin Tianwei Zhang Peng Sun 73 8 0 29 Jul 2024
Integrated Hardware Architecture and Device Placement Search Irene Wang Jakub Tarnawski Amar Phanishayee Divya Mahajan 41 1 0 18 Jul 2024
Optimizing Large Model Training through Overlapped Activation Recomputation Ping Chen Wenjie Zhang Shuibing He Yingjie Gu Zhuwei Peng ... Yi Zheng Zhefeng Wang Yanlong Yin Gang Chen Gang Chen 35 5 0 13 Jun 2024
Workload-Aware Hardware Accelerator Mining for Distributed Deep Learning Training Muhammad Adnan Amar Phanishayee Janardhan Kulkarni Prashant J. Nair Divyat Mahajan 45 0 0 23 Apr 2024
MOPAR: A Model Partitioning Framework for Deep Learning Inference Services on Serverless Platforms Jiaang Duan Shiyou Qian Dingyu Yang Hanwen Hu Jian Cao Guangtao Xue MoE 45 1 0 03 Apr 2024
Moirai: Towards Optimal Placement for Distributed Inference on Heterogeneous Devices Beibei Zhang Hongwei Zhu Feng Gao Zhihui Yang Xiaoyang Sean Wang 29 1 0 07 Dec 2023
Tango: rethinking quantization for graph neural network training on GPUs Shiyang Chen Da Zheng Caiwen Ding Chengying Huan Yuede Ji Hang Liu GNN MQ 31 5 0 02 Aug 2023
UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming Hao Lin Ke Wu Jie Li Jun Yu Li Wu-Jun Li 39 2 0 31 Jul 2023
Pre-train and Search: Efficient Embedding Table Sharding with Pre-trained Neural Cost Models Daochen Zha Louis Feng Liangchen Luo Bhargav Bhushanam Zirui Liu ... J. McMahon Yuzhen Huang Bryan Clarke A. Kejariwal Xia Hu 58 7 0 03 May 2023
Baechi: Fast Device Placement of Machine Learning Graphs Beomyeol Jeon L. Cai Chirag Shetty P. Srivastava Jintao Jiang Xiaolan Ke Yitao Meng Cong Xie Indranil Gupta GNN 26 18 0 20 Jan 2023
DreamShard: Generalizable Embedding Table Placement for Recommender Systems Daochen Zha Louis Feng Qiaoyu Tan Zirui Liu Kwei-Herng Lai Bhargav Bhushanam Yuandong Tian A. Kejariwal Xia Hu LMTD OffRL 33 28 0 05 Oct 2022
DFX: A Low-latency Multi-FPGA Appliance for Accelerating Transformer-based Text Generation Seongmin Hong Seungjae Moon Junsoo Kim Sungjae Lee Minsub Kim Dongsoo Lee Joo-Young Kim 72 77 0 22 Sep 2022
PICO: Pipeline Inference Framework for Versatile CNNs on Diverse Mobile Devices Xiang Yang Zikang Xu Q. Qi Jingyu Wang Haifeng Sun J. Liao Song Guo 21 11 0 17 Jun 2022
Decentralized Training of Foundation Models in Heterogeneous Environments Binhang Yuan Yongjun He Jared Davis Tianyi Zhang Tri Dao Beidi Chen Percy Liang Christopher Ré Ce Zhang 33 90 0 02 Jun 2022
FuncPipe: A Pipelined Serverless Framework for Fast and Cost-efficient Training of Deep Learning Models Yunzhuo Liu Bo Jiang Tian Guo Zimeng Huang Wen-ping Ma Xinbing Wang Chenghu Zhou 24 9 0 28 Apr 2022
TopoOpt: Co-optimizing Network Topology and Parallelization Strategy for Distributed Training Jobs Weiyang Wang Moein Khazraee Zhizhen Zhong M. Ghobadi Zhihao Jia Dheevatsa Mudigere Ying Zhang A. Kewitsch 39 85 0 01 Feb 2022
Persia: An Open, Hybrid System Scaling Deep Learning-based Recommenders up to 100 Trillion Parameters Xiangru Lian Binhang Yuan Xuefeng Zhu Yulong Wang Yongjun He ... Lei Yuan Hai-bo Yu Sen Yang Ce Zhang Ji Liu VLM 33 34 0 10 Nov 2021
DistIR: An Intermediate Representation and Simulator for Efficient Neural Network Distribution Keshav Santhanam Siddharth Krishna Ryota Tomioka Tim Harris Matei A. Zaharia 20 5 0 09 Nov 2021
Collage: Seamless Integration of Deep Learning Backends with Automatic Placement Byungsoo Jeon Sunghyun Park Peiyuan Liao Sheng Xu Tianqi Chen Zhihao Jia VLM 38 4 0 01 Nov 2021
Towards Efficient Post-training Quantization of Pre-trained Language Models Haoli Bai Lu Hou Lifeng Shang Xin Jiang Irwin King M. Lyu MQ 82 47 0 30 Sep 2021
GSPMD: General and Scalable Parallelization for ML Computation Graphs Yuanzhong Xu HyoukJoong Lee Dehao Chen Blake A. Hechtman Yanping Huang ... Noam M. Shazeer Shibo Wang Tao Wang Yonghui Wu Zhifeng Chen MoE 28 128 0 10 May 2021
PanGu- $α$ : Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation Wei Zeng Xiaozhe Ren Teng Su Hui Wang Yi-Lun Liao ... Gaojun Fan Yaowei Wang Xuefeng Jin Qun Liu Yonghong Tian ALM MoE AI4CE 35 212 0 26 Apr 2021
Software-Hardware Co-design for Fast and Scalable Training of Deep Learning Recommendation Models Dheevatsa Mudigere Y. Hao Jianyu Huang Zhihao Jia Andrew Tulloch ... Ajit Mathews Lin Qiao M. Smelyanskiy Bill Jia Vijay Rao 40 150 0 12 Apr 2021
Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM Deepak Narayanan M. Shoeybi Jared Casper P. LeGresley M. Patwary ... Prethvi Kashinkunti J. Bernauer Bryan Catanzaro Amar Phanishayee Matei A. Zaharia MoE 37 651 0 09 Apr 2021
Accelerating Recommendation System Training by Leveraging Popular Choices Muhammad Adnan Yassaman Ebrahimzadeh Maboud Divyat Mahajan Prashant J. Nair 30 55 0 01 Mar 2021
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 718 6,748 0 26 Sep 2016