Top-K Off-Policy Correction for a REINFORCE Recommender System

6 December 2018

Papers citing "Top-K Off-Policy Correction for a REINFORCE Recommender System"

50 / 187 papers shown

Title
Impression-Aware Recommender Systems F. B. P. Maurera Maurizio Ferrari Dacrema P. Castells Paolo Cremonesi AI4TS 40 2 0 15 Aug 2023
AutoAssign+: Automatic Shared Embedding Assignment in Streaming Recommendation Ziru Liu Kecheng Chen Fengyi Song Bo Chen Xiangyu Zhao Huifeng Guo Ruiming Tang 18 3 0 14 Aug 2023
Fast Slate Policy Optimization: Going Beyond Plackett-Luce Otmane Sakhi D. Rohde Nicolas Chopin OffRL 27 3 0 03 Aug 2023
On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top- $n$ Recommendation Olivier Jeunen Ivan Potapov Aleksei Ustimenko ELM OffRL 27 11 0 27 Jul 2023
Hierarchical Reinforcement Learning for Modeling User Novelty-Seeking Intent in Recommender Systems Pan Li Yuyan Wang Ed H. Chi Minmin Chen 21 2 0 02 Jun 2023
Differentially Private Episodic Reinforcement Learning with Heavy-tailed Rewards Yulian Wu Xingyu Zhou Sayak Ray Chowdhury Di Wang 30 2 0 01 Jun 2023
On the Linear Convergence of Policy Gradient under Hadamard Parameterization Jiacai Liu Jinchi Chen Ke Wei 29 2 0 31 May 2023
Robust Reinforcement Learning Objectives for Sequential Recommender Systems Melissa Mozifian Tristan Sylvain David E. Evans Li Meng OffRL 26 0 0 30 May 2023
Large Language Models for User Interest Journeys Konstantina Christakopoulou Alberto Lalama Cj Adams Iris Qu Yifat Amir ... Dina Bseiso Sarah Scodel Lucas Dixon Ed H. Chi Minmin Chen 21 25 0 24 May 2023
Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning Ruiyang Xu Jalaj Bhandari D. Korenkevych F. Liu Yuchen He Alex Nikulkov Zheqing Zhu OffRL 39 6 0 23 May 2023
Client Selection for Federated Policy Optimization with Environment Heterogeneity Zhijie Xie S. H. Song 29 3 0 18 May 2023
RLocator: Reinforcement Learning for Bug Localization Partha Chakraborty Mahmoud Alfadel M. Nagappan 20 8 0 09 May 2023
A Field Test of Bandit Algorithms for Recommendations: Understanding the Validity of Assumptions on Human Preferences in Multi-armed Bandits Liu Leqi Giulio Zhou Fatma Kilincc-Karzan Zachary Chase Lipton A. Montgomery 21 2 0 16 Apr 2023
Evaluating Online Bandit Exploration In Large-Scale Recommender System Hongbo Guo Ruben Naeff Alex Nikulkov Zheqing Zhu OffRL 27 6 0 05 Apr 2023
Uncertainty-Aware Instance Reweighting for Off-Policy Learning Xiaoying Zhang Junpu Chen Hongning Wang Hong Xie Yang Liu John C. S. Lui Hang Li OffRL 83 4 0 11 Mar 2023
Adaptive Interventions for Global Health: A Case Study of Malaria África Periánez A. Trister Madhav Nekkar Ana Fernández del Río P. Alonso 30 1 0 03 Mar 2023
Online Recommendations for Agents with Discounted Adaptive Preferences Arpit Agarwal William Brown 21 5 0 12 Feb 2023
Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective Lucas Maystre Daniel Russo Yu Zhao OffRL 9 9 0 07 Feb 2023
Multi-Task Recommendations with Reinforcement Learning Ziru Liu Jiejie Tian Qingpeng Cai Xiangyu Zhao Jingtong Gao ... Da Chen Tonghao He Dong Zheng Peng Jiang Kun Gai 44 41 0 07 Feb 2023
Two-Stage Constrained Actor-Critic for Short Video Recommendation Qingpeng Cai Zhenghai Xue Chi Zhang Wanqi Xue Shuchang Liu ... Tianyou Zuo Wentao Xie Dong Zheng Peng Jiang Kun Gai OffRL CML 24 44 0 03 Feb 2023
Generative Slate Recommendation with Reinforcement Learning Romain Deffayet Thibaut Thonet Jean-Michel Render Maarten de Rijke 27 23 0 20 Jan 2023
Disentangled Representation for Diversified Recommendations Xiaoying Zhang Hongning Wang Hang Li CML 31 11 0 13 Jan 2023
Local Policy Improvement for Recommender Systems Dawen Liang N. Vlassis OffRL 19 3 0 22 Dec 2022
Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning Guoxi Zhang H. Kashima OffRL 29 2 0 29 Nov 2022
Influential Recommender System Haoren Zhu Hao Ge Xiaodong Gu Pengfei Zhao Lee 13 3 0 18 Nov 2022
Latent User Intent Modeling for Sequential Recommenders B. Chang Alexandros Karatzoglou Yuyan Wang Can Xu Ed H. Chi Minmin Chen OffRL 11 10 0 17 Nov 2022
Situating Recommender Systems in Practice: Towards Inductive Learning and Incremental Updates Tobias Schnabel Mengting Wan Longqi Yang HAI 27 8 0 11 Nov 2022
A Transformer-Based Substitute Recommendation Model Incorporating Weakly Supervised Customer Behavior Data Wenting Ye Hongfei Yang Shuai Zhao Haoyang Fang Xingjian Shi Naveen Neppalli 28 3 0 04 Nov 2022
A Utility-Preserving Obfuscation Approach for YouTube Recommendations Jiang Zhang Hadi Askari Konstantinos Psounis Zubair Shafiq 25 5 0 14 Oct 2022
Reward Shaping for User Satisfaction in a REINFORCE Recommender Konstantina Christakopoulou Can Xu Sai Zhang Sriraj Badam Trevor Potter ... Ya Le Chris Berg E. B. Dixon Ed H. Chi Minmin Chen OffRL 11 8 0 30 Sep 2022
MARLUI: Multi-Agent Reinforcement Learning for Adaptive UIs T. Langerak Sammy Christen Mert Albaba Christoph Gebhardt Otmar Hilliges OffRL 17 0 0 26 Sep 2022
Offline Evaluation of Reward-Optimizing Recommender Systems: The Case of Simulation Imad Aouali Amine Benhalloum Martin Bompaire Benjamin Heymann Olivier Jeunen D. Rohde Otmane Sakhi Flavian Vasile OffRL 11 2 0 18 Sep 2022
SlateFree: a Model-Free Decomposition for Reinforcement Learning with Slate Actions A. Giovanidis 15 0 0 05 Sep 2022
A Practical Second-order Latent Factor Model via Distributed Particle Swarm Optimization Jialiang Wang Yurong Zhong Weiling Li 21 0 0 12 Aug 2022
Probabilistic Rank and Reward: A Scalable Model for Slate Recommendation Imad Aouali Achraf Ait Sidi Hammou Otmane Sakhi D. Rohde Flavian Vasile OffRL 8 7 0 10 Aug 2022
Fast Offline Policy Optimization for Large Scale Recommendation Otmane Sakhi D. Rohde Alexandre Gilotte OffRL 42 3 0 08 Aug 2022
UniRank: Unimodal Bandit Algorithm for Online Ranking Camille-Sovanneary Gauthier Romaric Gaudel Elisa Fromont 18 2 0 02 Aug 2022
Boosted Off-Policy Learning Ben London Levi Lu Ted Sandler Thorsten Joachims OffRL 46 4 0 01 Aug 2022
Multi-objective Optimization of Notifications Using Offline Reinforcement Learning Prakruthi Prabhakar Yiping Yuan Guangyu Yang Wensheng Sun A. Muralidharan OffRL 28 6 0 07 Jul 2022
Offline Policy Optimization with Eligible Actions Yao Liu Yannis Flet-Berliac Emma Brunskill OffRL 25 5 0 01 Jul 2022
Modeling Content Creator Incentives on Algorithm-Curated Platforms Jiri Hron K. Krauth Michael I. Jordan Niki Kilbertus Sarah Dean 28 37 0 27 Jun 2022
A Parametric Class of Approximate Gradient Updates for Policy Optimization Ramki Gummadi Saurabh Kumar Junfeng Wen Dale Schuurmans 26 0 0 17 Jun 2022
Pessimistic Off-Policy Optimization for Learning to Rank Matej Cief B. Kveton Michal Kompan OffRL 24 3 0 06 Jun 2022
Policy Gradient Algorithms with Monte Carlo Tree Learning for Non-Markov Decision Processes Tetsuro Morimura Kazuhiro Ota Kenshi Abe Peinan Zhang OffRL 17 0 0 02 Jun 2022
ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor Wanqi Xue Qingpeng Cai Ruohan Zhan Dong Zheng Peng Jiang Kun Gai Bo An OffRL 30 24 0 01 Jun 2022
On Gap-dependent Bounds for Offline Reinforcement Learning Xinqi Wang Qiwen Cui S. Du OffRL 71 11 0 01 Jun 2022
Uncertainty Quantification for Fairness in Two-Stage Recommender Systems Lequn Wang Thorsten Joachims 25 22 0 30 May 2022
Constrained Reinforcement Learning for Short Video Recommendation Qingpeng Cai Ruohan Zhan Chi Zhang Jie Zheng Guangwei Ding Pinghua Gong Dong Zheng Peng Jiang 25 6 0 26 May 2022
Preference Dynamics Under Personalized Recommendations Sarah Dean Jamie Morgenstern 75 34 0 25 May 2022
CVTT: Cross-Validation Through Time Mikhail Andronov Sergey Kolesnikov 19 4 0 11 May 2022