Stochastic Structured Prediction under Bandit Feedback

2 June 2016

Papers citing "Stochastic Structured Prediction under Bandit Feedback"

9 / 9 papers shown

Title
Revisiting the Weaknesses of Reinforcement Learning for Neural Machine Translation Samuel Kiegeland Julia Kreutzer AAML 37 46 0 16 Jun 2021
An Efficient Algorithm for Deep Stochastic Contextual Bandits Tan Zhu Guannan Liang Chunjiang Zhu HaiNing Li J. Bi 45 1 0 12 Apr 2021
APRIL: Interactively Learning to Summarise by Combining Active Preference Learning and Reinforcement Learning Yang Gao Christian M. Meyer Iryna Gurevych 21 34 0 29 Aug 2018
Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning Julia Kreutzer Joshua Uyheng Stefan Riezler 30 85 0 27 May 2018
Can Neural Machine Translation be Improved with User Feedback? Julia Kreutzer Shahram Khadivi E. Matusov Stefan Riezler 19 93 0 16 Apr 2018
The UMD Neural Machine Translation Systems at WMT17 Bandit Learning Task Amr Sharaf Shi Feng Khanh Nguyen Kianté Brantley Hal Daumé 16 4 0 03 Aug 2017
A Shared Task on Bandit Learning for Machine Translation Artem Sokolov Julia Kreutzer Kellen Sunderland Pavel Danchenko Witold Szymaniak Hagen Fürstenau Stefan Riezler 43 16 0 27 Jul 2017
Reinforcement Learning for Bandit Neural Machine Translation with Simulated Human Feedback Khanh Nguyen Hal Daumé Jordan L. Boyd-Graber 30 137 0 24 Jul 2017
Bandit Structured Prediction for Neural Sequence-to-Sequence Learning Julia Kreutzer Artem Sokolov Stefan Riezler 30 49 0 21 Apr 2017