Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward

v1v2 (latest)

Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward

13 June 2022

ArXiv (abs)PDF HTML

Papers citing "Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward"

12 / 62 papers shown

Title
Neural Tangent Kernel: Convergence and Generalization in Neural Networks Arthur Jacot Franck Gabriel Clément Hongler 269 3,203 0 20 Jun 2018
Self-Imitation Learning Junhyuk Oh Yijie Guo Satinder Singh Honglak Lee SSL 62 251 0 14 Jun 2018
On Learning Intrinsic Rewards for Policy Gradient Methods Zeyu Zheng Junhyuk Oh Satinder Singh 61 207 0 17 Apr 2018
A Benchmark Environment Motivated by Industrial Control Problems D. Hein Stefan Depeweg Michel Tokic Steffen Udluft A. Hentschel Thomas Runkler V. Sterzing OffRL 92 59 0 27 Sep 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 713 132,199 0 12 Jun 2017
Molecular De Novo Design through Deep Reinforcement Learning Marcus Olivecrona T. Blaschke Ola Engkvist Hongming Chen BDL 128 1,016 0 25 Apr 2017
On Kernelized Multi-armed Bandits Sayak Ray Chowdhury Aditya Gopalan 116 460 0 03 Apr 2017
Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving Shai Shalev-Shwartz Shaked Shammah Amnon Shashua 108 836 0 11 Oct 2016
End-to-End Training of Deep Visuomotor Policies Sergey Levine Chelsea Finn Trevor Darrell Pieter Abbeel BDL 315 3,437 0 02 Apr 2015
An Introduction to Matrix Concentration Inequalities J. Tropp 168 1,154 0 07 Jan 2015
Approximate Policy Iteration Schemes: A Comparison B. Scherrer 54 93 0 12 May 2014
Finite-Time Analysis of Kernelised Contextual Bandits Michal Valko N. Korda Rémi Munos I. Flaounas N. Cristianini 185 274 0 26 Sep 2013