cuDNN: Efficient Primitives for Deep Learning

3 October 2014

Sharan Chetlur

Cliff Woolley

Philippe Vandermersch

Papers citing "cuDNN: Efficient Primitives for Deep Learning"

50 / 249 papers shown

Title
AI Benchmark: Running Deep Neural Networks on Android Smartphones Andrey D. Ignatov Radu Timofte William Chou Ke Wang Max Wu Tim Hartley Luc Van Gool ELM 27 321 0 02 Oct 2018
Mini-batch Serialization: CNN Training with Inter-layer Data Reuse Sangkug Lym Armand Behroozi W. Wen Ge Li Yongkee Kwon M. Erez 17 25 0 30 Sep 2018
Anatomy Of High-Performance Deep Learning Convolutions On SIMD Architectures E. Georganas Sasikanth Avancha K. Banerjee Dhiraj D. Kalamkar G. Henry Hans Pabst A. Heinecke BDL 17 105 0 16 Aug 2018
CBinfer: Exploiting Frame-to-Frame Locality for Faster Convolutional Network Inference on Video Streams Lukas Cavigelli Luca Benini 27 26 0 15 Aug 2018
A Domain Guided CNN Architecture for Predicting Age from Structural Brain Images Pascal Sturmfels S. Rutherford Mike Angstadt Mark Peterson Chandra S. Sripada Jenna Wiens MedIm 27 23 0 11 Aug 2018
ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design Ningning Ma Xiangyu Zhang Haitao Zheng Jian Sun 51 4,931 0 30 Jul 2018
Recent Advances in Deep Learning: An Overview Matiur Rahman Minar Jibon Naher VLM 29 116 0 21 Jul 2018
Scheduling Computation Graphs of Deep Learning Models on Manycore CPUs Linpeng Tang Yida Wang Theodore L. Willke Kai Li GNN 21 22 0 16 Jul 2018
Beyond Data and Model Parallelism for Deep Neural Networks Zhihao Jia Matei A. Zaharia A. Aiken GNN AI4CE 38 498 0 14 Jul 2018
A Large-Scale Study on Regularization and Normalization in GANs Karol Kurach Mario Lucic Xiaohua Zhai Marcin Michalski Sylvain Gelly AI4CE 33 155 0 12 Jul 2018
Restructuring Batch Normalization to Accelerate CNN Training Wonkyung Jung Daejin Jung and Byeongho Kim Sunjung Lee Wonjong Rhee Jung Ho Ahn 24 62 0 04 Jul 2018
Efficient ConvNets for Analog Arrays Malte J. Rasch Tayfun Gokmen Mattia Rigotti W. Haensch 31 11 0 03 Jul 2018
Multimodal feature fusion for CNN-based gait recognition: an empirical comparison F. M. Castro M. Marín-Jiménez Nicolás Guil Mata N. P. D. L. Blanca CVBM 29 60 0 19 Jun 2018
Energy-Constrained Compression for Deep Neural Networks via Weighted Sparse Projection and Layer Input Masking Haichuan Yang Yuhao Zhu Ji Liu CVBM 19 36 0 12 Jun 2018
Analysis of DAWNBench, a Time-to-Accuracy Machine Learning Performance Benchmark Cody Coleman Daniel Kang Deepak Narayanan Luigi Nardi Tian Zhao Jian Zhang Peter Bailis K. Olukotun Christopher Ré Matei A. Zaharia 13 117 0 04 Jun 2018
BindsNET: A machine learning-oriented spiking neural networks library in Python Hananel Hazan D. J. Saunders Hassaan Khan Darpan T. Sanghavi H. Siegelmann R. Kozma AI4CE 41 229 0 04 Jun 2018
Automatic Large-Scale Data Acquisition via Crowdsourcing for Crosswalk Classification: A Deep Learning Approach Rodrigo Berriel Franco Schmidt Rossi Alberto F. de Souza Thiago Oliveira-Santos 30 50 0 30 May 2018
Accelerating CNN inference on FPGAs: A Survey K. Abdelouahab Maxime Pelcat Jocelyn Serot F. Berry AI4CE 30 147 0 26 May 2018
Echo: Compiler-based GPU Memory Footprint Reduction for LSTM RNN Training Bojian Zheng Abhishek Tiwari Nandita Vijaykumar Gennady Pekhimenko 27 44 0 22 May 2018
Faster Neural Network Training with Approximate Tensor Operations Menachem Adelman Kfir Y. Levy Ido Hakimi M. Silberstein 31 26 0 21 May 2018
Decorrelated Batch Normalization Lei Huang Dawei Yang B. Lang Jia Deng 16 190 0 23 Apr 2018
Context-aware Synthesis for Video Frame Interpolation Simon Niklaus Feng Liu 50 407 0 29 Mar 2018
Diagonalwise Refactorization: An Efficient Training Method for Depthwise Convolutions Zheng Qin Zhaoning Zhang Dongsheng Li Yiming Zhang Yuxing Peng 25 28 0 27 Mar 2018
Flex-Convolution (Million-Scale Point-Cloud Learning Beyond Grid-Worlds) F. Groh P. Wieschollek Hendrik P. A. Lensch 3DPC 16 107 0 20 Mar 2018
TBD: Benchmarking and Analyzing Deep Neural Network Training Hongyu Zhu Mohamed Akrout Bojian Zheng Andrew Pelegris Amar Phanishayee Bianca Schroeder Gennady Pekhimenko 31 80 0 16 Mar 2018
Deep Learning in Mobile and Wireless Networking: A Survey Chaoyun Zhang P. Patras Hamed Haddadi 50 1,306 0 12 Mar 2018
Hyperdrive: A Multi-Chip Systolically Scalable Binary-Weight CNN Inference Engine Renzo Andri Lukas Cavigelli D. Rossi Luca Benini MQ 24 19 0 05 Mar 2018
Escoin: Efficient Sparse Convolutional Neural Network Inference on GPUs Xuhao Chen 18 25 0 28 Feb 2018
Demystifying Parallel and Distributed Deep Learning: An In-Depth Concurrency Analysis Tal Ben-Nun Torsten Hoefler GNN 33 704 0 26 Feb 2018
Exploring Hidden Dimensions in Parallelizing Convolutional Neural Networks Zhihao Jia Sina Lin C. Qi A. Aiken 37 117 0 14 Feb 2018
IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures L. Espeholt Hubert Soyer Rémi Munos Karen Simonyan Volodymyr Mnih ... Vlad Firoiu Tim Harley Iain Dunning Shane Legg Koray Kavukcuoglu 54 1,578 0 05 Feb 2018
JointDNN: An Efficient Training and Inference Engine for Intelligent Mobile Cloud Computing Services Amir Erfan Eshratifar M. Abrishami Massoud Pedram FedML 34 248 0 25 Jan 2018
SuperNeurons: Dynamic GPU Memory Management for Training Deep Neural Networks Linnan Wang Jinmian Ye Yiyang Zhao Wei Wu Ang Li Shuaiwen Leon Song Zenglin Xu Tim Kraska 3DH 54 264 0 13 Jan 2018
Neural networks catching up with finite differences in solving partial differential equations in higher dimensions V. Avrutskiy 23 21 0 14 Dec 2017
200x Low-dose PET Reconstruction using Deep Learning Junshen Xu Enhao Gong John M. Pauly Greg Zaharchuk MedIm 22 131 0 12 Dec 2017
Using Rule-Based Labels for Weak Supervised Learning: A ChemNet for Transferable Chemical Property Prediction Garrett B. Goh Charles Siegel Abhinav Vishnu Nathan Oken Hodas 21 90 0 07 Dec 2017
Deep Learning for Real-Time Crime Forecasting and its Ternarization Bao Wang Penghang Yin Andrea L. Bertozzi P. Brantingham Stanley J. Osher Jack Xin AI4TS 38 82 0 23 Nov 2017
E-PUR: An Energy-Efficient Processing Unit for Recurrent Neural Networks Franyell Silfa Gem Dot J. Arnau Antonio González 33 39 0 20 Nov 2017
MegDet: A Large Mini-Batch Object Detector Chao Peng Tete Xiao Zeming Li Yuning Jiang Xiangyu Zhang Kai Jia Gang Yu Jian Sun ObjD 17 318 0 20 Nov 2017
Performance Modeling and Evaluation of Distributed Deep Learning Frameworks on GPUs Shaoshuai Shi Qiang-qiang Wang Xuming Hu 37 110 0 16 Nov 2017
Sparse Attentive Backtracking: Long-Range Credit Assignment in Recurrent Networks Nan Rosemary Ke Anirudh Goyal O. Bilaniuk Jonathan Binas Laurent Charlin C. Pal Yoshua Bengio 35 15 0 07 Nov 2017
Feedforward and Recurrent Neural Networks Backward Propagation and Hessian in Matrix Form Maxim Naumov 37 9 0 16 Sep 2017
Distributed Training Large-Scale Deep Architectures Shang-Xuan Zou Chun-Yen Chen Jui-Lin Wu Chun-Nan Chou Chia-Chin Tsao Kuan-Chieh Tung Ting-Wei Lin Cheng-Lung Sung Edward Y. Chang 26 22 0 10 Aug 2017
Structure-Preserving Image Super-resolution via Contextualized Multi-task Learning Yukai Shi Keze Wang Chongyu Chen Li Xu Liang Lin SupR 31 57 0 26 Jul 2017
Memory-Efficient Implementation of DenseNets Geoff Pleiss Danlu Chen Gao Huang Tongcheng Li Laurens van der Maaten Kilian Q. Weinberger 36 159 0 21 Jul 2017
Channel Pruning for Accelerating Very Deep Neural Networks Yihui He Xiangyu Zhang Jian Sun 128 2,508 0 19 Jul 2017
MEC: Memory-efficient Convolution for Deep Neural Network Minsik Cho D. Brand 24 86 0 21 Jun 2017
Learning Local Receptive Fields and their Weight Sharing Scheme on Graphs Jean-Charles Vialatte Vincent Gripon G. Coppin 25 5 0 08 Jun 2017
Brain Intelligence: Go Beyond Artificial Intelligence Huimin Lu Yujie Li Min Chen Hyoungseop Kim S. Serikawa 32 949 0 04 Jun 2017
Optimizing Memory Efficiency for Convolution Kernels on Kepler GPUs Xiaoming Chen Jianxu Chen Danny Chen X. S. Hu 35 10 0 29 May 2017