Reinforcement Learning for Strategic Recommendations

Reinforcement Learning for Strategic Recommendations

15 September 2020

Georgios Theocharous

Philip S. Thomas

Papers citing "Reinforcement Learning for Strategic Recommendations"

15 / 15 papers shown

Title
Lifelong Learning with a Changing Action Set Yash Chandak Georgios Theocharous Chris Nota Philip S. Thomas CLL OffRL 44 31 0 05 Jun 2019
Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology Eugene Ie Vihan Jain Jing Wang Sanmit Narvekar Ritesh Agarwal ... Vince Gatto Paul Covington Jim McFadden Tushar Chandra Craig Boutilier OffRL 98 70 0 29 May 2019
The Natural Language of Actions Guy Tennenholtz Shie Mannor 42 60 0 04 Feb 2019
Learning Action Representations for Reinforcement Learning Yash Chandak Georgios Theocharous James E. Kostas Scott M. Jordan Philip S. Thomas 56 163 0 01 Feb 2019
Near-Optimal Representation Learning for Hierarchical Reinforcement Learning Ofir Nachum S. Gu Honglak Lee Sergey Levine 60 211 0 02 Oct 2018
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 499 19,065 0 20 Jul 2017
Deep Reinforcement Learning in Large Discrete Action Spaces Gabriel Dulac-Arnold Richard Evans H. V. Hasselt P. Sunehag Timothy Lillicrap Jonathan J. Hunt Timothy A. Mann T. Weber T. Degris Ben Coppin OffRL 71 574 0 24 Dec 2015
Deep Reinforcement Learning with a Natural Language Action Space Ji He Jianshu Chen Xiaodong He Jianfeng Gao Lihong Li Li Deng Mari Ostendorf 82 245 0 14 Nov 2015
Cumulative Prospect Theory Meets Reinforcement Learning: Prediction and Control A. PrashanthL. Cheng Jie Michael Fu Steve Marcus Csaba Szepesvári 55 91 0 08 Jun 2015
Auto-Encoding Variational Bayes Diederik P. Kingma Max Welling BDL 452 16,933 0 20 Dec 2013
(More) Efficient Reinforcement Learning via Posterior Sampling Ian Osband Daniel Russo Benjamin Van Roy 116 534 0 04 Jun 2013
An MDP-based Recommender System Guy Shani Ronen I. Brafman David Heckerman LRM 103 972 0 12 Dec 2012
Off-Policy Actor-Critic T. Degris Martha White R. Sutton OffRL CML 228 220 0 22 May 2012
A Contextual-Bandit Approach to Personalized News Article Recommendation Lihong Li Wei Chu John Langford Robert Schapire 459 2,951 0 28 Feb 2010
Learning from Logged Implicit Exploration Data Alexander L. Strehl John Langford Sham Kakade Lihong Li OffRL 181 255 0 27 Feb 2010