EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL

21 July 2020

Seyed Kamyar Seyed Ghasemipour

Papers citing "EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL"

34 / 34 papers shown

Title
Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model Jing Zhang Linjiajie Fang Kexin Shi Wenjia Wang Bing-Yi Jing OffRL 44 0 0 27 Oct 2024
Simple Ingredients for Offline Reinforcement Learning Edoardo Cetin Andrea Tirinzoni Matteo Pirotta A. Lazaric Yann Ollivier Ahmed Touati OffRL 42 2 0 19 Mar 2024
Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias Max Sobol Mark Archit Sharma Fahim Tajwar Rafael Rafailov Sergey Levine Chelsea Finn OffRL OnRL 34 1 0 12 Oct 2023
Zero-Shot Reinforcement Learning from Low Quality Data Scott Jeen Tom Bewley Jonathan M. Cullen OffRL OnRL 38 1 0 26 Sep 2023
The In-Sample Softmax for Offline Reinforcement Learning Chenjun Xiao Han Wang Yangchen Pan Adam White Martha White OffRL 29 26 0 28 Feb 2023
Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning Hanlin Zhu Paria Rashidinejad Jiantao Jiao OffRL 42 15 0 30 Jan 2023
Constrained Policy Optimization with Explicit Behavior Density for Offline Reinforcement Learning Jing Zhang Chi Zhang Wenjia Wang Bing-Yi Jing OffRL 35 7 0 28 Jan 2023
Reliable Conditioning of Behavioral Cloning for Offline Reinforcement Learning Tung Nguyen Qinqing Zheng Aditya Grover OffRL 34 6 0 11 Oct 2022
Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling Huayu Chen Cheng Lu Chengyang Ying Hang Su Jun Zhu DiffM OffRL 108 106 0 29 Sep 2022
AdaCat: Adaptive Categorical Discretization for Autoregressive Models Qiyang Li Ajay Jain Pieter Abbeel OffRL 45 4 0 03 Aug 2022
Offline RL Policies Should be Trained to be Adaptive Dibya Ghosh Anurag Ajay Pulkit Agrawal Sergey Levine OffRL 35 45 0 05 Jul 2022
On the Role of Discount Factor in Offline Reinforcement Learning Haotian Hu Yiqin Yang Qianchuan Zhao Chongjie Zhang OffRL 34 18 0 07 Jun 2022
Offline RL for Natural Language Generation with Implicit Language Q Learning Charles Burton Snell Ilya Kostrikov Yi Su Mengjiao Yang Sergey Levine OffRL 144 103 0 05 Jun 2022
User-Interactive Offline Reinforcement Learning Phillip Swazinna Steffen Udluft Thomas Runkler OffRL 30 11 0 21 May 2022
How to Spend Your Robot Time: Bridging Kickstarting and Offline Reinforcement Learning for Vision-based Robotic Manipulation Alex X. Lee Coline Devin Jost Tobias Springenberg Yuxiang Zhou Thomas Lampe A. Abdolmaleki Konstantinos Bousmalis OffRL OnRL 26 15 0 06 May 2022
DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement Learning Jinxin Liu Hongyin Zhang Donglin Wang OffRL 38 33 0 13 Mar 2022
Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning Chenjia Bai Lingxiao Wang Zhuoran Yang Zhihong Deng Animesh Garg Peng Liu Zhaoran Wang OffRL 40 132 0 23 Feb 2022
Reinforcement Learning in Practice: Opportunities and Challenges Yuxi Li OffRL 38 9 0 23 Feb 2022
Supported Policy Optimization for Offline Reinforcement Learning Jialong Wu Haixu Wu Zihan Qiu Jianmin Wang Mingsheng Long OffRL 35 65 0 13 Feb 2022
Can Wikipedia Help Offline Reinforcement Learning? Machel Reid Yutaro Yamada S. Gu 3DV RALM OffRL 140 95 0 28 Jan 2022
Offline Reinforcement Learning with Soft Behavior Regularization Haoran Xu Xianyuan Zhan Jianxiong Li Honglei Yin OffRL 28 31 0 14 Oct 2021
Offline Reinforcement Learning with Implicit Q-Learning Ilya Kostrikov Ashvin Nair Sergey Levine OffRL 214 848 0 12 Oct 2021
A Minimalist Approach to Offline Reinforcement Learning Scott Fujimoto S. Gu OffRL 58 785 0 12 Jun 2021
Offline Reinforcement Learning as Anti-Exploration Shideh Rezaeifar Robert Dadashi Nino Vieillard Léonard Hussenot Olivier Bachem Olivier Pietquin M. Geist OffRL 54 51 0 11 Jun 2021
Offline Reinforcement Learning as One Big Sequence Modeling Problem Michael Janner Qiyang Li Sergey Levine OffRL 66 649 0 03 Jun 2021
Regularized Behavior Value Estimation Çağlar Gülçehre Sergio Gomez Colmenarejo Ziyun Wang Jakub Sygnowski T. Paine Konrad Zolna Yutian Chen Matthew W. Hoffman Razvan Pascanu Nando de Freitas OffRL 31 37 0 17 Mar 2021
Offline Reinforcement Learning with Fisher Divergence Critic Regularization Ilya Kostrikov Jonathan Tompson Rob Fergus Ofir Nachum OffRL 29 300 0 14 Mar 2021
COMBO: Conservative Offline Model-Based Policy Optimization Tianhe Yu Aviral Kumar Rafael Rafailov Aravind Rajeswaran Sergey Levine Chelsea Finn OffRL 222 419 0 16 Feb 2021
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning Anurag Ajay Aviral Kumar Pulkit Agrawal Sergey Levine Ofir Nachum OffRL OnRL 39 155 0 26 Oct 2020
Human-centric Dialog Training via Offline Reinforcement Learning Natasha Jaques J. Shen Asma Ghandeharioun Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 37 92 0 12 Oct 2020
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 343 1,963 0 04 May 2020
CAQL: Continuous Action Q-Learning Moonkyung Ryu Yinlam Chow Ross Anderson Christian Tjandraatmadja Craig Boutilier 197 42 0 26 Sep 2019
Input Convex Neural Networks Brandon Amos Lei Xu J. Zico Kolter 187 603 0 22 Sep 2016
Off-Policy Actor-Critic T. Degris Martha White R. Sutton OffRL CML 163 220 0 22 May 2012