Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes

Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov Decision Processes

26 January 2022

Andrew Wagenmaker

Max Simchowitz

Papers citing "Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov Decision Processes"

12 / 12 papers shown

Title
The Statistical Complexity of Interactive Decision Making Dylan J. Foster Sham Kakade Jian Qian Alexander Rakhlin 59 177 0 27 Dec 2021
Bilinear Classes: A Structural Framework for Provable Generalization in RL S. Du Sham Kakade Jason D. Lee Shachar Lovett G. Mahajan Wen Sun Ruosong Wang OffRL 65 189 0 19 Mar 2021
Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes Dongruo Zhou Quanquan Gu Csaba Szepesvári 49 205 0 15 Dec 2020
Exponential Lower Bounds for Planning in MDPs With Linearly-Realizable Optimal Action-Value Functions Gellert Weisz Philip Amortila Csaba Szepesvári OffRL 53 80 0 03 Oct 2020
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration Andrea Zanette A. Lazaric Mykel J. Kochenderfer Emma Brunskill 45 64 0 18 Aug 2020
Provably Efficient Reinforcement Learning for Discounted MDPs with Feature Mapping Dongruo Zhou Jiafan He Quanquan Gu 35 134 0 23 Jun 2020
FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs Alekh Agarwal Sham Kakade A. Krishnamurthy Wen Sun OffRL 59 224 0 18 Jun 2020
Model-Based Reinforcement Learning with Value-Targeted Regression Alex Ayoub Zeyu Jia Csaba Szepesvári Mengdi Wang Lin F. Yang OffRL 67 301 0 01 Jun 2020
Optimism in Reinforcement Learning with Generalized Linear Function Approximation Yining Wang Ruosong Wang S. Du A. Krishnamurthy 146 135 0 09 Dec 2019
Tighter Problem-Dependent Regret Bounds in Reinforcement Learning without Domain Knowledge using Value Function Bounds Andrea Zanette Emma Brunskill OffRL 78 273 0 01 Jan 2019
Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning Christoph Dann Tor Lattimore Emma Brunskill 41 307 0 22 Mar 2017
On the Complexity of Bandit and Derivative-Free Stochastic Convex Optimization Ohad Shamir 88 191 0 11 Sep 2012