Deep Residual Output Layers for Neural Language Generation

14 May 2019

Papers citing "Deep Residual Output Layers for Neural Language Generation"

42 / 42 papers shown

Title
Delving Deeper Into Astromorphic Transformers Md. Zesun Ahmed Mia Malyaban Bal Abhronil Sengupta 115 1 0 18 Dec 2023
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-linearities O. Ganea Sylvain Gelly Gary Bécigneul Aliaksei Severyn 52 18 0 21 Feb 2019
Deep Structured Prediction with Nonlinear Output Transformations Colin Graber Ofer Meshi Alex Schwing BDL 55 25 0 01 Nov 2018
Beyond Weight Tying: Learning Joint Input-Output Embeddings for Neural Machine Translation Nikolaos Pappas Lesly Miculicich James Henderson 44 16 0 31 Aug 2018
Direct Output Connection for a High-Rank Language Model Sho Takase Jun Suzuki Masaaki Nagata 65 36 0 30 Aug 2018
GILE: A Generalized Input-Label Embedding for Text Classification Nikolaos Pappas James Henderson AI4TS AILaw VLM 55 79 0 16 Jun 2018
Sigsoftmax: Reanalysis of the Softmax Bottleneck Sekitoshi Kanai Yasuhiro Fujiwara Yuki Yamanaka S. Adachi 43 69 0 28 May 2018
The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation Mengzhao Chen Orhan Firat Ankur Bapna Melvin Johnson Wolfgang Macherey ... Niki Parmar M. Schuster Zhifeng Chen Yonghui Wu Macduff Hughes AIMat 58 457 0 26 Apr 2018
Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks Long Chen Hanwang Zhang Jun Xiao Wen Liu Shih-Fu Chang 76 289 0 05 Dec 2017
Breaking the Softmax Bottleneck: A High-Rank RNN Language Model Zhilin Yang Zihang Dai Ruslan Salakhutdinov William W. Cohen BDL 66 371 0 10 Nov 2017
Dynamic Evaluation of Neural Sequence Models Ben Krause Emmanuel Kahembwe Iain Murray Steve Renals 65 134 0 21 Sep 2017
Regularizing and Optimizing LSTM Language Models Stephen Merity N. Keskar R. Socher 163 1,095 0 07 Aug 2017
On the State of the Art of Evaluation in Neural Language Models Gábor Melis Chris Dyer Phil Blunsom 65 535 0 18 Jul 2017
Learning Deep Latent Spaces for Multi-Label Classification Chih-Kuan Yeh Wei-Chieh Wu Wei-Jen Ko Y. Wang DRL 51 140 0 03 Jul 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 687 131,526 0 12 Jun 2017
A Deep Reinforced Model for Abstractive Summarization Romain Paulus Caiming Xiong R. Socher AI4TS 197 1,557 0 11 May 2017
Convolutional Sequence to Sequence Learning Jonas Gehring Michael Auli David Grangier Denis Yarats Yann N. Dauphin AIMat 169 3,286 0 08 May 2017
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer Noam M. Shazeer Azalia Mirhoseini Krzysztof Maziarz Andy Davis Quoc V. Le Geoffrey E. Hinton J. Dean MoE 248 2,644 0 23 Jan 2017
OpenNMT: Open-Source Toolkit for Neural Machine Translation Guillaume Klein Yoon Kim Yuntian Deng Jean Senellart Alexander M. Rush 327 1,900 0 10 Jan 2017
Improving Neural Language Models with a Continuous Cache Edouard Grave Armand Joulin Nicolas Usunier KELM 48 300 0 13 Dec 2016
Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation Melvin Johnson M. Schuster Quoc V. Le M. Krikun Yonghui Wu ... F. Viégas Martin Wattenberg Gregory S. Corrado Macduff Hughes Jeffrey Dean 117 2,091 0 14 Nov 2016
Neural Architecture Search with Reinforcement Learning Barret Zoph Quoc V. Le 459 5,372 0 05 Nov 2016
Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling Hakan Inan Khashayar Khosravi R. Socher 108 384 0 04 Nov 2016
Neural Machine Translation in Linear Time Nal Kalchbrenner L. Espeholt Karen Simonyan Aaron van den Oord Alex Graves Koray Kavukcuoglu AIMat 102 552 0 31 Oct 2016
Pointer Sentinel Mixture Models Stephen Merity Caiming Xiong James Bradbury R. Socher RALM 308 2,859 0 26 Sep 2016
Efficient softmax approximation for GPUs Edouard Grave Armand Joulin Moustapha Cissé David Grangier Hervé Jégou 77 272 0 14 Sep 2016
Using the Output Embedding to Improve Language Models Ofir Press Lior Wolf 69 733 0 20 Aug 2016
Recurrent Highway Networks J. Zilly R. Srivastava Jan Koutník Jürgen Schmidhuber 71 417 0 12 Jul 2016
CYCLADES: Conflict-free Asynchronous Machine Learning Yang Zhang Maximilian Lam Stephen Tu Dimitris Papailiopoulos Ce Zhang Michael I. Jordan M. Shah Christopher Ré Benjamin Recht 39 62 0 31 May 2016
A Theoretically Grounded Application of Dropout in Recurrent Neural Networks Y. Gal Zoubin Ghahramani UQCV DRL BDL 180 1,650 0 16 Dec 2015
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.2K 193,878 0 10 Dec 2015
Structured Prediction Energy Networks David Belanger Andrew McCallum GNN 73 219 0 19 Nov 2015
A Neural Attention Model for Abstractive Sentence Summarization Alexander M. Rush S. Chopra Jason Weston CVBM 182 2,700 0 02 Sep 2015
Neural Machine Translation of Rare Words with Subword Units Rico Sennrich Barry Haddow Alexandra Birch 215 7,735 0 31 Aug 2015
Character-Aware Neural Language Models Yoon Kim Yacine Jernite David Sontag Alexander M. Rush 95 1,669 0 26 Aug 2015
Effective Approaches to Attention-based Neural Machine Translation Thang Luong Hieu H. Pham Christopher D. Manning 377 7,962 0 17 Aug 2015
Transition-Based Dependency Parsing with Stack Long Short-Term Memory Chris Dyer Miguel Ballesteros Wang Ling Austin Matthews Noah A. Smith 117 802 0 29 May 2015
On Using Very Large Target Vocabulary for Neural Machine Translation Sébastien Jean Kyunghyun Cho Roland Memisevic Yoshua Bengio 153 1,011 0 05 Dec 2014
Recurrent Neural Network Regularization Wojciech Zaremba Ilya Sutskever Oriol Vinyals ODL 137 2,776 0 08 Sep 2014
Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau Kyunghyun Cho Yoshua Bengio AIMat 549 27,300 0 01 Sep 2014
Distributed Representations of Words and Phrases and their Compositionality Tomas Mikolov Ilya Sutskever Kai Chen G. Corrado J. Dean NAI OCL 392 33,521 0 16 Oct 2013
Zero-Shot Learning Through Cross-Modal Transfer R. Socher M. Ganjoo Hamsa Sridhar Osbert Bastani Christopher D. Manning A. Ng BDL VLM 119 1,469 0 16 Jan 2013