Learning One Representation to Optimize All Rewards

14 March 2021

Papers citing "Learning One Representation to Optimize All Rewards"

18 / 18 papers shown

Title
Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching A. Jain Harley Wiltzer Jesse Farebrother Irina Rish Glen Berseth Sanjiban Choudhury 80 1 0 11 Nov 2024
Zero-Shot Offline Imitation Learning via Optimal Transport Thomas Rupf Marco Bagatella Nico Gürtler Jonas Frey Georg Martius OffRL 325 0 0 11 Oct 2024
Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making Vivek Myers Chongyi Zheng Anca Dragan Sergey Levine Benjamin Eysenbach OffRL 68 9 0 24 Jun 2024
Zero-Shot Reinforcement Learning via Function Encoders Tyler Ingebrand Amy Zhang Ufuk Topcu OffRL 56 3 0 30 Jan 2024
Learning Successor States and Goal-Dependent Values: A Mathematical Viewpoint Léonard Blier Corentin Tallec Yann Ollivier 91 31 0 18 Jan 2021
C-Learning: Learning to Achieve Goals via Recursive Classification Benjamin Eysenbach Ruslan Salakhutdinov Sergey Levine OffRL 43 69 0 17 Nov 2020
Reward-Free Exploration for Reinforcement Learning Chi Jin A. Krishnamurthy Max Simchowitz Tiancheng Yu OffRL 147 194 0 07 Feb 2020
Disentangled Cumulants Help Successor Representations Transfer to New Tasks Christopher Grimm I. Higgins André Barreto Denis Teplyashin Markus Wulfmeier Tim Hertweck R. Hadsell Satinder Singh 28 14 0 25 Nov 2019
Unsupervised State Representation Learning in Atari Ankesh Anand Evan Racah Sherjil Ozair Yoshua Bengio Marc-Alexandre Côté R. Devon Hjelm SSL 51 254 0 19 Jun 2019
Fast Task Inference with Variational Intrinsic Successor Features Steven Hansen Will Dabney André Barreto T. Wiele David Warde-Farley Volodymyr Mnih BDL 53 151 0 12 Jun 2019
Universal Successor Features Approximators Diana Borsa André Barreto John Quan D. Mankowitz Rémi Munos H. V. Hasselt David Silver Tom Schaul 56 114 0 18 Dec 2018
Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research Matthias Plappert Marcin Andrychowicz Alex Ray Bob McGrew Bowen Baker ... Joshua Tobin Maciek Chociej Peter Welinder Vikash Kumar Wojciech Zaremba 44 562 0 26 Feb 2018
Hindsight policy gradients Paulo E. Rauber Avinash Ummadisingu Filipe Wall Mutz J. Schmidhuber 42 68 0 16 Nov 2017
Hindsight Experience Replay Marcin Andrychowicz Dwight Crow Alex Ray Jonas Schneider Rachel Fong Peter Welinder Bob McGrew Joshua Tobin Pieter Abbeel Wojciech Zaremba OffRL 216 2,307 0 05 Jul 2017
Self-Correcting Models for Model-Based Reinforcement Learning Erik Talvitie LRM 55 94 0 19 Dec 2016
Deep Reinforcement Learning with Successor Features for Navigation across Similar Environments Jingwei Zhang Jost Tobias Springenberg Joschka Boedecker Wolfram Burgard 31 294 0 16 Dec 2016
Successor Features for Transfer in Reinforcement Learning André Barreto Will Dabney Rémi Munos Jonathan J. Hunt Tom Schaul H. V. Hasselt David Silver 28 566 0 16 Jun 2016
The Arcade Learning Environment: An Evaluation Platform for General Agents Marc G. Bellemare Yavar Naddaf J. Veness Michael Bowling 56 2,992 0 19 Jul 2012