Distilling Knowledge for Search-based Structured Prediction

29 May 2018

Papers citing "Distilling Knowledge for Search-based Structured Prediction"

8 / 8 papers shown

Title
Improved Training of Mixture-of-Experts Language GANs Yekun Chai Qiyue Yin Junge Zhang GAN 19 5 0 23 Feb 2023
Improving Scheduled Sampling with Elastic Weight Consolidation for Neural Machine Translation Michalis Korakakis Andreas Vlachos CLL 31 2 0 13 Sep 2021
Structure-Level Knowledge Distillation For Multilingual Sequence Labeling Xinyu Wang Yong-jia Jiang Nguyen Bach Tao Wang Fei Huang Kewei Tu 28 36 0 08 Apr 2020
Scalable Syntax-Aware Language Models Using Knowledge Distillation A. Kuncoro Chris Dyer Laura Rimell S. Clark Phil Blunsom 35 26 0 14 Jun 2019
Towards Better UD Parsing: Deep Contextualized Word Embeddings, Ensemble, and Treebank Concatenation Wanxiang Che Yijia Liu Yuxuan Wang Bo Zheng Ting Liu 19 250 0 09 Jul 2018
OpenNMT: Open-Source Toolkit for Neural Machine Translation Guillaume Klein Yoon Kim Yuntian Deng Jean Senellart Alexander M. Rush 273 1,896 0 10 Jan 2017
On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima N. Keskar Dheevatsa Mudigere J. Nocedal M. Smelyanskiy P. T. P. Tang ODL 308 2,890 0 15 Sep 2016
Effective Approaches to Attention-based Neural Machine Translation Thang Luong Hieu H. Pham Christopher D. Manning 218 7,925 0 17 Aug 2015