DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning

3 January 2025

Papers citing "DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning"

25 / 25 papers shown

Title
PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling Utsav Singh Wesley A Suttle Brian M Sadler Vinay P. Namboodiri Amrit Singh Bedi 46 4 0 20 Apr 2024
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 271 3,712 0 29 May 2023
BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach Mao Ye B. Liu S. Wright Peter Stone Qian Liu 88 85 0 19 Sep 2022
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives Murtaza Dalal Deepak Pathak Ruslan Salakhutdinov 85 92 0 28 Oct 2021
Augmenting Reinforcement Learning with Behavior Primitives for Diverse Manipulation Tasks Soroush Nasiriany Huihan Liu Yuke Zhu 91 111 0 07 Oct 2021
Goal-Conditioned Reinforcement Learning with Imagined Subgoals Elliot Chane-Sane Cordelia Schmid Ivan Laptev 47 143 0 01 Jul 2021
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Kimin Lee Laura M. Smith Pieter Abbeel OffRL 45 282 0 09 Jun 2021
Weak Human Preference Supervision For Deep Reinforcement Learning Zehong Cao Kaichiu Wong Chin-Teng Lin 30 5 0 25 Jul 2020
Relay Policy Learning: Solving Long-Horizon Tasks via Imitation and Reinforcement Learning Abhishek Gupta Vikash Kumar Corey Lynch Sergey Levine Karol Hausman 43 429 0 25 Oct 2019
Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning? Ofir Nachum Haoran Tang Xingyu Lu S. Gu Honglak Lee Sergey Levine 46 100 0 23 Sep 2019
Reward learning from human preferences and demonstrations in Atari Borja Ibarz Jan Leike Tobias Pohlen G. Irving Shane Legg Dario Amodei 56 390 0 15 Nov 2018
Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning Ilya Kostrikov Kumar Krishna Agrawal Debidatta Dwibedi Sergey Levine Jonathan Tompson 69 257 0 09 Sep 2018
QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation Dmitry Kalashnikov A. Irpan P. Pastor Julian Ibarz Alexander Herzog ... Deirdre Quillen E. Holly Mrinal Kalakrishnan Vincent Vanhoucke Sergey Levine 96 1,454 0 27 Jun 2018
Data-Efficient Hierarchical Reinforcement Learning Ofir Nachum S. Gu Honglak Lee Sergey Levine OffRL 87 803 0 21 May 2018
Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review Sergey Levine AI4CE BDL 51 667 0 02 May 2018
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Tuomas Haarnoja Aurick Zhou Pieter Abbeel Sergey Levine 219 8,236 0 04 Jan 2018
Learnings Options End-to-End for Continuous Action Tasks Martin Klissarov Pierre-Luc Bacon J. Harb Doina Precup 27 55 0 30 Nov 2017
Overcoming Exploration in Reinforcement Learning with Demonstrations Ashvin Nair Bob McGrew Marcin Andrychowicz Wojciech Zaremba Pieter Abbeel OffRL 77 777 0 28 Sep 2017
Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations Aravind Rajeswaran Vikash Kumar Abhishek Gupta Giulia Vezzani John Schulman E. Todorov Sergey Levine 101 1,079 0 28 Sep 2017
When Waiting is not an Option : Learning Options with a Deliberation Cost J. Harb Pierre-Luc Bacon Martin Klissarov Doina Precup 34 148 0 14 Sep 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 234 18,685 0 20 Jul 2017
Hindsight Experience Replay Marcin Andrychowicz Dwight Crow Alex Ray Jonas Schneider Rachel Fong Peter Welinder Bob McGrew Joshua Tobin Pieter Abbeel Wojciech Zaremba OffRL 222 2,307 0 05 Jul 2017
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 91 3,243 0 12 Jun 2017
FeUdal Networks for Hierarchical Reinforcement Learning A. Vezhnevets Simon Osindero Tom Schaul N. Heess Max Jaderberg David Silver Koray Kavukcuoglu FedML 67 902 0 03 Mar 2017
End-to-End Training of Deep Visuomotor Policies Sergey Levine Chelsea Finn Trevor Darrell Pieter Abbeel BDL 222 3,418 0 02 Apr 2015