Sequence Modeling of Temporal Credit Assignment for Episodic Reinforcement Learning

31 May 2019

Papers citing "Sequence Modeling of Temporal Credit Assignment for Episodic Reinforcement Learning"

26 / 26 papers shown

Title
From Text to Trajectory: Exploring Complex Constraint Representation and Decomposition in Safe Reinforcement Learning Pusen Dong Tianchen Zhu Yue Qiu Haoyi Zhou Jianxin Li 148 1 0 24 Feb 2025
Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning Yun Qu Yuhang Jiang Boyuan Wang Yixiu Mao Cheems Wang Chang-Shu Liu Xiangyang Ji 156 8 0 10 Jan 2025
Generative Adversarial Self-Imitation Learning Yijie Guo Junhyuk Oh Satinder Singh Honglak Lee GAN 81 59 0 03 Dec 2018
Optimizing Agent Behavior over Long Time Scales by Transporting Value Chia-Chun Hung Timothy Lillicrap Josh Abramson Yan Wu M. Berk Mirza Federico Carnevale Arun Ahuja Greg Wayne 80 124 0 15 Oct 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.8K 95,229 0 11 Oct 2018
Sparse Attentive Backtracking: Temporal CreditAssignment Through Reminding Nan Rosemary Ke Anirudh Goyal O. Bilaniuk Jonathan Binas Michael C. Mozer C. Pal Yoshua Bengio CLL 67 86 0 11 Sep 2018
RUDDER: Return Decomposition for Delayed Rewards Jose A. Arjona-Medina Michael Gillhofer Michael Widrich Thomas Unterthiner Johannes Brandstetter Sepp Hochreiter 87 221 0 20 Jun 2018
Learning Self-Imitating Diverse Policies Tanmay Gangwani Qiang Liu Jian Peng 83 68 0 25 May 2018
On Learning Intrinsic Rewards for Policy Gradient Methods Zeyu Zheng Junhyuk Oh Satinder Singh 61 208 0 17 Apr 2018
Evolved Policy Gradients Rein Houthooft Richard Y. Chen Phillip Isola Bradly C. Stadie Filip Wolski Jonathan Ho Pieter Abbeel 105 227 0 13 Feb 2018
Inverse Reward Design Dylan Hadfield-Menell S. Milli Pieter Abbeel Stuart J. Russell Anca Dragan 91 399 0 08 Nov 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 565 19,296 0 20 Jul 2017
Emergence of Locomotion Behaviours in Rich Environments N. Heess TB Dhruva S. Sriram Jay Lemmon J. Merel ... Tom Erez Ziyun Wang S. M. Ali Eslami Martin Riedmiller David Silver 210 938 0 07 Jul 2017
Hindsight Experience Replay Marcin Andrychowicz Dwight Crow Alex Ray Jonas Schneider Rachel Fong Peter Welinder Bob McGrew Joshua Tobin Pieter Abbeel Wojciech Zaremba OffRL 284 2,339 0 05 Jul 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 805 132,725 0 12 Jun 2017
Curiosity-driven Exploration by Self-supervised Prediction Deepak Pathak Pulkit Agrawal Alexei A. Efros Trevor Darrell LRM SSL 128 2,453 0 15 May 2017
Molecular De Novo Design through Deep Reinforcement Learning Marcus Olivecrona T. Blaschke Ola Engkvist Hongming Chen BDL 150 1,019 0 25 Apr 2017
Evolution Strategies as a Scalable Alternative to Reinforcement Learning Tim Salimans Jonathan Ho Xi Chen Szymon Sidor Ilya Sutskever 119 1,544 0 10 Mar 2017
A Structured Self-attentive Sentence Embedding Zhouhan Lin Minwei Feng Cicero Nogueira dos Santos Mo Yu Bing Xiang Bowen Zhou Yoshua Bengio 121 2,141 0 09 Mar 2017
Reinforcement Learning with Unsupervised Auxiliary Tasks Max Jaderberg Volodymyr Mnih Wojciech M. Czarnecki Tom Schaul Joel Z Leibo David Silver Koray Kavukcuoglu SSL 111 1,229 0 16 Nov 2016
Unifying Count-Based Exploration and Intrinsic Motivation Marc G. Bellemare S. Srinivasan Georg Ostrovski Tom Schaul D. Saxton Rémi Munos 186 1,484 0 06 Jun 2016
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 210 8,881 0 04 Feb 2016
Continuous control with deep reinforcement learning Timothy Lillicrap Jonathan J. Hunt Alexander Pritzel N. Heess Tom Erez Yuval Tassa David Silver Daan Wierstra 330 13,289 0 09 Sep 2015
Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models Bradly C. Stadie Sergey Levine Pieter Abbeel 97 505 0 03 Jul 2015
High-Dimensional Continuous Control Using Generalized Advantage Estimation John Schulman Philipp Moritz Sergey Levine Michael I. Jordan Pieter Abbeel OffRL 135 3,439 0 08 Jun 2015
End-to-End Training of Deep Visuomotor Policies Sergey Levine Chelsea Finn Trevor Darrell Pieter Abbeel BDL 315 3,444 0 02 Apr 2015