Title
A Frequency-aware Software Cache for Large Recommendation System Embeddings Jiarui Fang Geng Zhang Jiatong Han Shenggui Li Zhengda Bian Yongbin Li Jin Liu Yang You 26 3 0 08 Aug 2022
Analysis and Optimization of GNN-Based Recommender Systems on Persistent Memory Yuwei Hu Jiajie Li Zhongming Yu Zhiru Zhang GNN 39 0 0 25 Jul 2022
Impact of RoCE Congestion Control Policies on Distributed Training of DNNs Tarannum Khan Saeed Rashidi Srinivas Sridharan Pallavi Shurpali Aditya Akella T. Krishna OOD 34 11 0 22 Jul 2022
Machine Learning Model Sizes and the Parameter Gap Pablo Villalobos J. Sevilla T. Besiroglu Lennart Heim A. Ho Marius Hobbhahn ALM ELM AI4CE 33 58 0 05 Jul 2022
BlindFL: Vertical Federated Machine Learning without Peeking into Your Data Fangcheng Fu Huanran Xue Yong Cheng Yangyu Tao Bin Cui FedML 26 59 0 16 Jun 2022
Grad-GradaGrad? A Non-Monotone Adaptive Stochastic Gradient Method Aaron Defazio Baoyu Zhou Lin Xiao ODL 27 5 0 14 Jun 2022
FEL: High Capacity Learning for Recommendation and Ranking via Federated Ensemble Learning Meisam Hejazinia Dzmitry Huba Ilias Leontiadis Kiwan Maeng Mani Malek Luca Melis Ilya Mironov Milad Nasr Kaikai Wang Carole-Jean Wu FedML 11 5 0 07 Jun 2022
Infinite Recommendation Networks: A Data-Centric Approach Noveen Sachdeva Mehak Preet Dhaliwal Carole-Jean Wu Julian McAuley DD 33 28 0 03 Jun 2022
Towards Fair Federated Recommendation Learning: Characterizing the Inter-Dependence of System and Data Heterogeneity Kiwan Maeng Haiyu Lu Luca Melis John Nguyen Michael G. Rabbat Carole-Jean Wu FedML 39 31 0 30 May 2022
Tensor Program Optimization with Probabilistic Programs Junru Shao Xiyou Zhou Siyuan Feng Bohan Hou Ruihang Lai Hongyi Jin Wuwei Lin Masahiro Masuda Cody Hao Yu Tianqi Chen 37 29 0 26 May 2022
Training Personalized Recommendation Systems from (GPU) Scratch: Look Forward not Backwards Youngeun Kwon Minsoo Rhu 29 27 0 10 May 2022
Exploration of the possibility of infusing Social Media Trends into generating NFT Recommendations D. Piyadigama Guhanathan Poravi MLAU 24 6 0 03 May 2022
A Review on Pushing the Limits of Baseline Recommendation Systems with the integration of Opinion Mining & Information Retrieval Techniques D. Piyadigama Guhanathan Poravi VLM 14 0 0 03 May 2022
An Analysis of the Features Considerable for NFT Recommendations D. Piyadigama Guhanathan Poravi 14 17 0 01 May 2022
MiCS: Near-linear Scaling for Training Gigantic Model on Public Cloud Zhen Zhang Shuai Zheng Yida Wang Justin Chiu George Karypis Trishul Chilimbi Mu Li Xin Jin 19 39 0 30 Apr 2022
CowClip: Reducing CTR Prediction Model Training Time from 12 hours to 10 minutes on 1 GPU Zangwei Zheng Peng Xu Xuan Zou Da Tang Zhen Li ... Xiangzhuo Ding Fuzhao Xue Ziheng Qing Youlong Cheng Yang You VLM 44 7 0 13 Apr 2022
PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems Yuanxing Zhang Langshi Chen Siran Yang Man Yuan Hui-juan Yi ... Yong Li Dingyang Zhang Wei Lin Lin Qu Bo Zheng 35 32 0 11 Apr 2022
Learning to Collide: Recommendation System Model Compression with Learned Hash Functions Benjamin Ghaemmaghami Mustafa Ozdal Rakesh Komuravelli D. Korchev Dheevatsa Mudigere Krishnakumar Nair Maxim Naumov 39 6 0 28 Mar 2022
Hercules: Heterogeneity-Aware Inference Serving for At-Scale Personalized Recommendation Liu Ke Udit Gupta Mark Hempstead Carole-Jean Wu Hsien-Hsin S. Lee Xuan Zhang 26 21 0 14 Mar 2022
GPU-Initiated On-Demand High-Throughput Storage Access in the BaM System Architecture Zaid Qureshi Vikram Sharma Mailthody Isaac Gelado S. Min Amna Masood ... Dmitri Vainbrand I-Hsin Chung M. Garland W. Dally Wen-mei W. Hwu GNN 44 21 0 09 Mar 2022
BagPipe: Accelerating Deep Recommendation Model Training Saurabh Agarwal Chengpo Yan Ziyi Zhang Shivaram Venkataraman 37 17 0 24 Feb 2022
Compute Trends Across Three Eras of Machine Learning J. Sevilla Lennart Heim A. Ho T. Besiroglu Marius Hobbhahn Pablo Villalobos 39 269 0 11 Feb 2022
Efficient Direct-Connect Topologies for Collective Communications Liangyu Zhao Siddharth Pal Tapan Chugh Weiyang Wang Jason Fantl P. Basu J. Khoury Arvind Krishnamurthy 42 6 0 07 Feb 2022
TopoOpt: Co-optimizing Network Topology and Parallelization Strategy for Distributed Training Jobs Weiyang Wang Moein Khazraee Zhizhen Zhong M. Ghobadi Zhihao Jia Dheevatsa Mudigere Ying Zhang A. Kewitsch 39 81 0 01 Feb 2022
Building a Performance Model for Deep Learning Recommendation Model Training on GPUs Zhongyi Lin Louis Feng E. K. Ardestani Jaewon Lee J. Lundell Changkyu Kim A. Kejariwal John Douglas Owens 24 19 0 19 Jan 2022
In-storage Processing of I/O Intensive Applications on Computational Storage Drives Ali Heydarigorji Mahdi Torabzadehkashi Siavash Rezaei Hossein Bobarshad V. Alves Pai H. Chou 16 8 0 23 Dec 2021
Pixelated Butterfly: Simple and Efficient Sparse training for Neural Network Models Tri Dao Beidi Chen Kaizhao Liang Jiaming Yang Zhao Song Atri Rudra Christopher Ré 33 75 0 30 Nov 2021
Bolt: Bridging the Gap between Auto-tuners and Hardware-native Performance Jiarong Xing Leyuan Wang Shang Zhang Jack H Chen Ang Chen Yibo Zhu 33 43 0 25 Oct 2021
Differentiable NAS Framework and Application to Ads CTR Prediction Ravi Krishna Aravind Kalaiah Bichen Wu Maxim Naumov Dheevatsa Mudigere M. Smelyanskiy Kurt Keutzer 28 8 0 25 Oct 2021
Supporting Massive DLRM Inference Through Software Defined Memory E. K. Ardestani Changkyu Kim Seung Jae Lee Luoshang Pan Valmiki Rampersad ... Krishnakumar Nair Maxim Naumov Christopher Peterson M. Smelyanskiy Vijay Rao BDL 39 20 0 21 Oct 2021
A Real-Time Energy and Cost Efficient Vehicle Route Assignment Neural Recommender System A. Moawad Zhijian Li Ines Pancorbo K. M. Gurumurthy Vincent Freyermuth E. Islam R. Vijayagopal M. Stinson A. Rousseau 22 8 0 21 Oct 2021
Two-stage Voice Application Recommender System for Unhandled Utterances in Intelligent Personal Assistant Wei Xiao Qian Hu Thahir Mohamed Zheng Gao Xibin Gao Radhika Arava M. Abdelhady 25 3 0 19 Oct 2021
Themis: A Network Bandwidth-Aware Collective Scheduling Policy for Distributed Training of DL Models Saeed Rashidi William Won Sudarshan Srinivasan Srinivas Sridharan T. Krishna GNN 30 29 0 09 Oct 2021
RASA: Efficient Register-Aware Systolic Array Matrix Engine for CPU Geonhwa Jeong Eric Qin A. Samajdar C. Hughes S. Subramoney Hyesoon Kim T. Krishna 65 18 0 05 Oct 2021
Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor Operations on Spatial Accelerators Geonhwa Jeong Gokcen Kestor Prasanth Chatarasi A. Parashar Po-An Tsai S. Rajamanickam R. Gioiosa T. Krishna 35 13 0 15 Sep 2021
Understanding Data Storage and Ingestion for Large-Scale Deep Recommendation Model Training Mark Zhao Niket Agarwal Aarti Basant B. Gedik Satadru Pan ... Kevin Wilfong Harsha Rastogi Carole-Jean Wu Christos Kozyrakis Parikshit Pol GNN 34 70 0 20 Aug 2021
Managing ML Pipelines: Feature Stores and the Coming Wave of Embedding Ecosystems Laurel J. Orr Atindriyo Sanyal Xiao Ling Karan Goel Megan Leszczynski 25 18 0 11 Aug 2021
$Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf DLRM Model : 1000$\times$ Compression and 3.1$\times$ Faster Inference$ Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf DLRM Model : 1000 $\times$ Compression and 3.1 $\times$ Faster Inference Aditya Desai Li Chou Anshumali Shrivastava AI4CE 25 6 0 04 Aug 2021
NG+ : A Multi-Step Matrix-Product Natural Gradient Method for Deep Learning Minghan Yang Dong Xu Qiwen Cui Zaiwen Wen Pengxiang Xu 18 4 0 14 Jun 2021
3U-EdgeAI: Ultra-Low Memory Training, Ultra-Low BitwidthQuantization, and Ultra-Low Latency Acceleration Yao Chen Cole Hawkins Kaiqi Zhang Zheng-Wei Zhang Cong Hao 26 8 0 11 May 2021
DAMOV: A New Methodology and Benchmark Suite for Evaluating Data Movement Bottlenecks Geraldo F. Oliveira Juan Gómez Luna Lois Orosa Saugata Ghose Nandita Vijaykumar Ivan Fernandez Mohammad Sadrosadati O. Mutlu 36 82 0 08 May 2021
CoSA: Scheduling by Constrained Optimization for Spatial Accelerators Qijing Huang Minwoo Kang Grace Dinh Thomas Norell Aravind Kalaiah J. Demmel J. Wawrzynek Y. Shao 23 105 0 05 May 2021
Arithmetic-Intensity-Guided Fault Tolerance for Neural Network Inference on GPUs J. Kosaian K. V. Rashmi 38 33 0 19 Apr 2021
ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table Huifeng Guo Wei Guo Yong Gao Ruiming Tang Xiuqiang He Wenzhi Liu 38 20 0 17 Apr 2021
Tensor Processing Primitives: A Programming Abstraction for Efficiency and Portability in Deep Learning & HPC Workloads E. Georganas Dhiraj D. Kalamkar Sasikanth Avancha Menachem Adelman Deepti Aggarwal ... Ramanarayan Mohanty Hans Pabst Brian Retford Barukh Ziv A. Heinecke 37 17 0 12 Apr 2021
Large Graph Convolutional Network Training with GPU-Oriented Data Communication Architecture S. Min Kun Wu Sitao Huang Mert Hidayetouglu Jinjun Xiong Eiman Ebrahimi Deming Chen Wen-mei W. Hwu GNN 10 67 0 04 Mar 2021
TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models Chunxing Yin Bilge Acun Xing Liu Carole-Jean Wu 50 102 0 25 Jan 2021
Understanding Training Efficiency of Deep Learning Recommendation Models at Scale Bilge Acun Matthew Murphy Xiaodong Wang Jade Nie Carole-Jean Wu K. Hazelwood 36 109 0 11 Nov 2020
Exploring the limits of Concurrency in ML Training on Google TPUs Sameer Kumar James Bradbury C. Young Yu Emma Wang Anselm Levskaya ... Tao Wang Tayo Oguntebi Yazhou Zu Yuanzhong Xu Andy Swing BDL AIMat MoE LRM 25 27 0 07 Nov 2020
CPR: Understanding and Improving Failure Tolerant Training for Deep Learning Recommendation with Partial Recovery Kiwan Maeng Shivam Bharuka Isabel Gao M. C. Jeffrey V. Saraph ... Caroline Trippel Jiyan Yang Michael G. Rabbat Brandon Lucia Carole-Jean Wu OffRL 24 31 0 05 Nov 2020