v1v2 (latest)

Learning Long-Term Reward Redistribution via Randomized Return Decomposition

26 November 2021

Papers citing "Learning Long-Term Reward Redistribution via Randomized Return Decomposition"

34 / 34 papers shown

Title
Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning Yun Qu Yuhang Jiang Boyuan Wang Yixiu Mao Cheems Wang Chang-Shu Liu Xiangyang Ji 152 8 0 10 Jan 2025
On the Expressivity of Markov Reward David Abel Will Dabney Anna Harutyunyan Mark K. Ho Michael L. Littman Doina Precup Satinder Singh 79 85 0 01 Nov 2021
Revisiting State Augmentation methods for Reinforcement Learning with Stochastic Delays Somjit Nath Mayank Baranwal H. Khadilkar OffRL 68 28 0 17 Aug 2021
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Kimin Lee Laura M. Smith Pieter Abbeel OffRL 65 288 0 09 Jun 2021
On the Theory of Reinforcement Learning with Once-per-Episode Feedback Niladri S. Chatterji Aldo Pacchiano Peter L. Bartlett Michael I. Jordan OffRL 71 26 0 29 May 2021
Synthetic Returns for Long-Term Credit Assignment David Raposo Samuel Ritter Adam Santoro Greg Wayne T. Weber M. Botvinick H. V. Hasselt Francis Song AI4TS 86 35 0 24 Feb 2021
Learning to Represent Action Values as a Hypergraph on the Action Vertices Arash Tavakoli Mehdi Fatemi Petar Kormushev 60 23 0 28 Oct 2020
Learning Guidance Rewards with Trajectory-space Smoothing Tanmay Gangwani Yuanshuo Zhou Jian Peng 55 36 0 23 Oct 2020
Reinforcement Learning with Random Delays Simon Ramstedt Yann Bouteiller Giovanni Beltrame C. Pal Jonathan Binas 193 61 0 06 Oct 2020
Reinforcement Learning with Trajectory Feedback Yonathan Efroni Nadav Merlis Shie Mannor 75 45 0 13 Aug 2020
QPLEX: Duplex Dueling Multi-Agent Q-Learning Jianhao Wang Zhizhou Ren Terry Liu Yang Yu Chongjie Zhang OffRL 108 457 0 03 Aug 2020
RNA Secondary Structure Prediction By Learning Unrolled Algorithms Xinshi Chen Yu Li Ramzan Umarov Xin Gao Le Song SyDa AI4TS 62 118 0 13 Feb 2020
What Can Learned Intrinsic Rewards Capture? Zeyu Zheng Junhyuk Oh Matteo Hessel Zhongwen Xu M. Kroiss H. V. Hasselt David Silver Satinder Singh 69 78 0 11 Dec 2019
Hindsight Credit Assignment Anna Harutyunyan Will Dabney Thomas Mesnard M. G. Azar Bilal Piot ... H. V. Hasselt Greg Wayne Satinder Singh Doina Precup Rémi Munos 71 75 0 05 Dec 2019
Deep Coordination Graphs Wendelin Bohmer Vitaly Kurin Shimon Whiteson GNN 75 179 0 27 Sep 2019
Deep Reinforcement Learning for Autonomous Internet of Things: Model, Applications and Challenges Lei Lei Yue Tan Kan Zheng Shiwen Liu K. Zheng Xuemin Shen Shen OffRL 70 205 0 22 Jul 2019
Sequence Modeling of Temporal Credit Assignment for Episodic Reinforcement Learning Yang Liu Yunan Luo Yuanyi Zhong Xi Chen Qiang Liu Jian-wei Peng 50 36 0 31 May 2019
QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning Kyunghwan Son Daewoo Kim Wan Ju Kang D. Hostallero Yung Yi OffRL 64 809 0 14 May 2019
Hyperbolic Discounting and Learning over Multiple Horizons W. Fedus Carles Gelada Yoshua Bengio Marc G. Bellemare Hugo Larochelle 70 107 0 19 Feb 2019
Soft Actor-Critic Algorithms and Applications Tuomas Haarnoja Aurick Zhou Kristian Hartikainen George Tucker Sehoon Ha ... Vikash Kumar Henry Zhu Abhishek Gupta Pieter Abbeel Sergey Levine 145 2,449 0 13 Dec 2018
Generative Adversarial Self-Imitation Learning Yijie Guo Junhyuk Oh Satinder Singh Honglak Lee GAN 78 59 0 03 Dec 2018
Optimization of Molecules via Deep Reinforcement Learning Zhenpeng Zhou S. Kearnes Li Li R. Zare Patrick F. Riley AI4CE 107 542 0 19 Oct 2018
Meta-Gradient Reinforcement Learning Zhongwen Xu H. V. Hasselt David Silver 112 327 0 24 May 2018
QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning Tabish Rashid Mikayel Samvelyan Christian Schroeder de Witt Gregory Farquhar Jakob N. Foerster Shimon Whiteson 160 1,676 0 30 Mar 2018
Addressing Function Approximation Error in Actor-Critic Methods Scott Fujimoto H. V. Hoof David Meger OffRL 189 5,212 0 26 Feb 2018
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Tuomas Haarnoja Aurick Zhou Pieter Abbeel Sergey Levine 317 8,406 0 04 Jan 2018
Deep Reinforcement Learning for De-Novo Drug Design Mariya Popova Olexandr Isayev Alexander Tropsha 93 1,031 0 29 Nov 2017
Learning Robust Rewards with Adversarial Inverse Reinforcement Learning Justin Fu Katie Z Luo Sergey Levine 129 757 0 30 Oct 2017
Hindsight Experience Replay Marcin Andrychowicz Dwight Crow Alex Ray Jonas Schneider Rachel Fong Peter Welinder Bob McGrew Joshua Tobin Pieter Abbeel Wojciech Zaremba OffRL 278 2,337 0 05 Jul 2017
Value-Decomposition Networks For Cooperative Multi-Agent Learning P. Sunehag Guy Lever A. Gruslys Wojciech M. Czarnecki V. Zambaldi ... Marc Lanctot Nicolas Sonnerat Joel Z Leibo K. Tuyls T. Graepel 73 1,013 0 16 Jun 2017
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 218 3,365 0 12 Jun 2017
Concrete Problems in AI Safety Dario Amodei C. Olah Jacob Steinhardt Paul Christiano John Schulman Dandelion Mané 244 2,404 0 21 Jun 2016
Generative Adversarial Imitation Learning Jonathan Ho Stefano Ermon GAN 159 3,119 0 10 Jun 2016
Continuous control with deep reinforcement learning Timothy Lillicrap Jonathan J. Hunt Alexander Pritzel N. Heess Tom Erez Yuval Tassa David Silver Daan Wierstra 325 13,286 0 09 Sep 2015