Layer Normalization

21 July 2016

Jimmy Lei Ba

Papers citing "Layer Normalization"

50 / 5,515 papers shown

Title
Pre-trained Language Model Representations for Language Generation Sergey Edunov Alexei Baevski Michael Auli 27 129 0 22 Mar 2019
Learning Multi-Level Information for Dialogue Response Selection by Highway Recurrent Transformer Ting-Rui Chiang Chao-Wei Huang Shang-Yu Su Yun-Nung Chen OffRL 19 8 0 21 Mar 2019
Learning Gentle Object Manipulation with Curiosity-Driven Deep Reinforcement Learning Sandy H. Huang Martina Zambelli Jackie Kay M. Martins Yuval Tassa P. Pilarski R. Hadsell 31 50 0 20 Mar 2019
Semantic Image Synthesis with Spatially-Adaptive Normalization Taesung Park Ming Liu Ting-Chun Wang Jun-Yan Zhu 54 2,666 0 18 Mar 2019
Forecasting Spatio-Temporal Renewable Scenarios: a Deep Generative Approach Congmei Jiang Yize Chen Yongfang Mao Yi Chai Mingbiao Yu 6 6 0 13 Mar 2019
Goal-Directed Behavior under Variational Predictive Coding: Dynamic Organization of Visual Attention and Working Memory Minju Jung Takazumi Matsumoto Jun Tani 17 20 0 12 Mar 2019
Scene Memory Transformer for Embodied Agents in Long-Horizon Tasks Kuan Fang Alexander Toshev Li Fei-Fei Silvio Savarese OffRL 13 200 0 09 Mar 2019
SSN: Learning Sparse Switchable Normalization via SparsestMax Wenqi Shao Jiamin Ren Jingyu Li Ruimao Zhang Yudian Li Xiaogang Wang Ping Luo 29 56 0 09 Mar 2019
COMIC: Towards A Compact Image Captioning Model with Attention J. Tan Chee Seng Chan Joon Huang Chuah VLM 28 40 0 04 Mar 2019
Accelerating Training of Deep Neural Networks with a Standardization Loss Jasmine Collins Johannes Ballé Jonathon Shlens 21 3 0 03 Mar 2019
Multi-Object Representation Learning with Iterative Variational Inference Klaus Greff Raphael Lopez Kaufman Rishabh Kabra Nicholas Watters Christopher P. Burgess Daniel Zoran Loic Matthey M. Botvinick Alexander Lerchner OCL SSL 42 500 0 01 Mar 2019
Non-Parametric Adaptation for Neural Machine Translation Ankur Bapna Orhan Firat 24 73 0 28 Feb 2019
Catalyst.RL: A Distributed Framework for Reproducible RL Research Sergey Kolesnikov Oleksii Hrinchuk OffRL 25 8 0 28 Feb 2019
Efficient Contextual Representation Learning Without Softmax Layer Liunian Harold Li Patrick H. Chen Cho-Jui Hsieh Kai-Wei Chang 26 6 0 28 Feb 2019
Towards Robust ResNet: A Small Step but A Giant Leap Jingfeng Zhang Bo Han L. Wynter K. H. Low Mohan Kankanhalli 24 41 0 28 Feb 2019
Regularity Normalization: Neuroscience-Inspired Unsupervised Attention across Neural Network Layers Baihan Lin 21 2 0 27 Feb 2019
Equi-normalization of Neural Networks Pierre Stock Benjamin Graham Rémi Gribonval Hervé Jégou ODL 15 16 0 27 Feb 2019
AntisymmetricRNN: A Dynamical System View on Recurrent Neural Networks B. Chang Minmin Chen E. Haber Ed H. Chi PINN GNN 36 197 0 26 Feb 2019
Dual Attention Networks for Visual Reference Resolution in Visual Dialog Gi-Cheon Kang Jaeseo Lim Byoung-Tak Zhang 22 72 0 25 Feb 2019
Relation Extraction using Explicit Context Conditioning Gaurav Singh Parminder Bhatia 22 18 0 25 Feb 2019
Star-Transformer Qipeng Guo Xipeng Qiu Pengfei Liu Yunfan Shao Xiangyang Xue Zheng Zhang 27 262 0 25 Feb 2019
Learning to Perform Role-Filler Binding with Schematic Knowledge Catherine Chen Qihong Lu A. Beukers Christopher A. Baldassano K. A. Norman 20 9 0 24 Feb 2019
Evidence Sentence Extraction for Machine Reading Comprehension Hai Wang Dian Yu Kai Sun Jianshu Chen Dong Yu David A. McAllester Dan Roth 39 56 0 23 Feb 2019
Deep Adaptive Input Normalization for Time Series Forecasting Nikolaos Passalis Anastasios Tefas Juho Kanniainen Moncef Gabbouj Alexandros Iosifidis AI4TS OOD 17 9 0 21 Feb 2019
LocalNorm: Robust Image Classification through Dynamically Regularized Normalization Bojian Yin S. Schaafsma Henk Corporaal H. Scholte S. Bohté 19 2 0 18 Feb 2019
Self-Attention Aligner: A Latency-Control End-to-End Model for ASR Using Self-Attention Network and Chunk-Hopping Linhao Dong Feng Wang Bo Xu 22 90 0 18 Feb 2019
Realizing Continual Learning through Modeling a Learning System as a Fiber Bundle Zhenfeng Cao 19 2 0 16 Feb 2019
CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity Aditya Bhatt Daniel Palenicek Boris Belousov Max Argus Artemij Amiranashvili Thomas Brox Jan Peters 40 45 0 14 Feb 2019
Actions Generation from Captions Xuan Liang Yida Xu 11 0 0 14 Feb 2019
Scaling Limits of Wide Neural Networks with Weight Sharing: Gaussian Process Behavior, Gradient Independence, and Neural Tangent Kernel Derivation Greg Yang 11 284 0 13 Feb 2019
Machine Reading Comprehension for Answer Re-Ranking in Customer Support Chatbots Momchil Hardalov Ivan Koychev Preslav Nakov 13 14 0 12 Feb 2019
Diverse Exploration via Conjugate Policies for Policy Gradient Methods Andrew Cohen Xingye Qiao Lei Yu E. Way Xiangrong Tong 14 9 0 10 Feb 2019
Reducing Uncertainty in Undersampled MRI Reconstruction with Active Acquisition Zizhao Zhang Adriana Romero Matthew Muckley Pascal Vincent Lin Yang M. Drozdzal 19 110 0 08 Feb 2019
Spatial Mixture Models with Learnable Deep Priors for Perceptual Grouping Jinyang Yuan Bin Li Xiangyang Xue OCL 39 11 0 07 Feb 2019
Are All Layers Created Equal? Chiyuan Zhang Samy Bengio Y. Singer 22 140 0 06 Feb 2019
Early Recognition of Sepsis with Gaussian Process Temporal Convolutional Networks and Dynamic Time Warping Michael Moor Max Horn Bastian Rieck D. Roqueiro Karsten Borgwardt 11 14 0 05 Feb 2019
FurcaNet: An end-to-end deep gated convolutional, long short-term memory, deep neural networks for single channel speech separation Ziqiang Shi Huibin Lin L. Liu Rujie Liu Shoji Hayakawa Shouji Harada Jiqing Han 25 22 0 02 Feb 2019
Flow++: Improving Flow-Based Generative Models with Variational Dequantization and Architecture Design Jonathan Ho Xi Chen A. Srinivas Yan Duan Pieter Abbeel DRL 20 444 0 01 Feb 2019
The Evolved Transformer David R. So Chen Liang Quoc V. Le ViT 38 460 0 30 Jan 2019
Diversity Regularized Adversarial Learning B. Ayinde Keishin Nishihama J. Zurada GAN 14 1 0 30 Jan 2019
No Training Required: Exploring Random Encoders for Sentence Classification John Wieting Douwe Kiela 32 98 0 29 Jan 2019
Pay Less Attention with Lightweight and Dynamic Convolutions Felix Wu Angela Fan Alexei Baevski Yann N. Dauphin Michael Auli 11 604 0 29 Jan 2019
Fixup Initialization: Residual Learning Without Normalization Hongyi Zhang Yann N. Dauphin Tengyu Ma ODL AI4CE 34 347 0 27 Jan 2019
ACNN: a Full Resolution DCNN for Medical Image Segmentation Xiao-Yun Zhou Jian-Qing Zheng Peichao Li Guang-Zhong Yang MedIm 20 1 0 26 Jan 2019
Flexible Operator Embeddings via Deep Learning Ryan Marcus Olga Papaemmanouil 18 4 0 25 Jan 2019
On Output Activation Functions for Adversarial Losses: A Theoretical Analysis via Variational Divergence Minimization and An Empirical Study on MNIST Classification Hao-Wen Dong Yi-Hsuan Yang AAML 9 0 0 25 Jan 2019
On the Transformation of Latent Space in Autoencoders Jaehoon Cha Kyeong Soo Kim Sanghyuk Lee DiffM 12 5 0 24 Jan 2019
Deep Learning on Attributed Graphs: A Journey from Graphs to Their Embeddings and Back M. Simonovsky BDL GNN 34 1 0 24 Jan 2019
"Is this an example image?" -- Predicting the Relative Abstractness Level of Image and Text Christian Otto Sebastian Holzki Ralph Ewerth 12 5 0 23 Jan 2019
Self-Attentive Model for Headline Generation Daniil Gavrilov Pavel Kalaidin Valentin Malykh LRM 17 54 0 23 Jan 2019