Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling

4 November 2016

Papers citing "Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling"

23 / 73 papers shown

Title
Pyramidal Recurrent Unit for Language Modeling Sachin Mehta Rik Koncel-Kedziorski Mohammad Rastegari Hannaneh Hajishirzi 21 10 0 27 Aug 2018
Neural Document Summarization by Jointly Learning to Score and Select Sentences Qingyu Zhou Nan Yang Furu Wei Shaohan Huang M. Zhou T. Zhao 25 320 0 06 Jul 2018
GILE: A Generalized Input-Label Embedding for Text Classification Nikolaos Pappas James Henderson AI4TS AILaw VLM 27 79 0 16 Jun 2018
Like a Baby: Visually Situated Neural Language Acquisition Alexander Ororbia A. Mali Mary Alexandria Kelly David Reitter 15 4 0 29 May 2018
Sparse Binary Compression: Towards Distributed Deep Learning with minimal Communication Felix Sattler Simon Wiedemann K. Müller Wojciech Samek MQ 33 211 0 22 May 2018
Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context Urvashi Khandelwal He He Peng Qi Dan Jurafsky RALM 16 293 0 12 May 2018
Noisin: Unbiased Regularization for Recurrent Neural Networks Adji Bousso Dieng Rajesh Ranganath Jaan Altosaar David M. Blei 22 22 0 03 May 2018
Efficient Contextualized Representation: Language Model Pruning for Sequence Labeling Liyuan Liu Xiang Ren Jingbo Shang Jian-wei Peng Jiawei Han 25 44 0 20 Apr 2018
Value-aware Quantization for Training and Inference of Neural Networks Eunhyeok Park S. Yoo Peter Vajda MQ 14 158 0 20 Apr 2018
An Analysis of Neural Language Modeling at Multiple Scales Stephen Merity N. Keskar R. Socher 24 170 0 22 Mar 2018
MaskGAN: Better Text Generation via Filling in the______ W. Fedus Ian Goodfellow Andrew M. Dai 24 468 0 23 Jan 2018
Fix your classifier: the marginal value of training the last weight layer Elad Hoffer Itay Hubara Daniel Soudry 35 101 0 14 Jan 2018
Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training Yujun Lin Song Han Huizi Mao Yu Wang W. Dally 44 1,386 0 05 Dec 2017
Neural Language Modeling by Jointly Learning Syntax and Lexicon Songlin Yang Zhouhan Lin Chin-Wei Huang Aaron Courville 38 178 0 02 Nov 2017
Neural Optimizer Search with Reinforcement Learning Irwan Bello Barret Zoph Vijay Vasudevan Quoc V. Le ODL 29 383 0 21 Sep 2017
Regularizing and Optimizing LSTM Language Models Stephen Merity N. Keskar R. Socher 60 1,091 0 07 Aug 2017
Revisiting Activation Regularization for Language RNNs Stephen Merity Bryan McCann R. Socher 33 44 0 03 Aug 2017
A Deep Reinforced Model for Abstractive Summarization Romain Paulus Caiming Xiong R. Socher AI4TS 32 1,547 0 11 May 2017
Nematus: a Toolkit for Neural Machine Translation Rico Sennrich Orhan Firat Kyunghyun Cho Alexandra Birch Barry Haddow ... Marcin Junczys-Dowmunt Samuel Laubli Antonio Valerio Miceli Barone Jozef Mokry Maria Nadejde 21 407 0 13 Mar 2017
Multiplicative LSTM for sequence modelling Ben Krause Liang Lu Iain Murray Steve Renals 32 208 0 26 Sep 2016
Using the Output Embedding to Improve Language Models Ofir Press Lior Wolf 21 727 0 20 Aug 2016
Recurrent Highway Networks J. Zilly R. Srivastava Jan Koutník Jürgen Schmidhuber 15 413 0 12 Jul 2016
Multi-Way, Multilingual Neural Machine Translation with a Shared Attention Mechanism Orhan Firat Kyunghyun Cho Yoshua Bengio LRM AIMat 231 623 0 06 Jan 2016