Conservative Q-Learning for Offline Reinforcement Learning

8 June 2020

Papers citing "Conservative Q-Learning for Offline Reinforcement Learning"

50 / 431 papers shown

Title
SMPL: Simulated Industrial Manufacturing and Process Control Learning Environments Mohan Zhang Xiaozhou Wang Benjamin Decardi-Nelson Bo Song A. Zhang ... Jiayi Cheng Xiaohong Liu DengDeng Yu Matthew Poon Animesh Garg 26 4 0 17 Jun 2022
Bootstrapped Transformer for Offline Reinforcement Learning Kerong Wang Hanye Zhao Xufang Luo Kan Ren Weinan Zhang Dongsheng Li OffRL 16 37 0 17 Jun 2022
RL-GA: A Reinforcement Learning-Based Genetic Algorithm for Electromagnetic Detection Satellite Scheduling Problem Yanjie Song Luona Wei Qing Yang Jian Wu Lining Xing Y. Chen 24 85 0 12 Jun 2022
Challenges and Opportunities in Offline Reinforcement Learning from Visual Observations Cong Lu Philip J. Ball Tim G. J. Rudner Jack Parker-Holder Michael A. Osborne Yee Whye Teh OffRL 32 52 0 09 Jun 2022
On the Role of Discount Factor in Offline Reinforcement Learning Haotian Hu Yiqin Yang Qianchuan Zhao Chongjie Zhang OffRL 34 18 0 07 Jun 2022
Offline RL for Natural Language Generation with Implicit Language Q Learning Charles Burton Snell Ilya Kostrikov Yi Su Mengjiao Yang Sergey Levine OffRL 144 103 0 05 Jun 2022
Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress Rishabh Agarwal Max Schwarzer Pablo Samuel Castro Rameswar Panda Marc G. Bellemare OffRL OnRL 37 63 0 03 Jun 2022
Incorporating Explicit Uncertainty Estimates into Deep Offline Reinforcement Learning David Brandfonbrener Rémi Tachet des Combes Romain Laroche OffRL 37 5 0 02 Jun 2022
A Mixture-of-Expert Approach to RL-based Dialogue Management Yinlam Chow Azamat Tulepbergenov Ofir Nachum Moonkyung Ryu Mohammad Ghavamzadeh Craig Boutilier MoE 25 14 0 31 May 2022
Non-Markovian policies occupancy measures Romain Laroche Rémi Tachet des Combes Jacob Buckman OffRL 37 1 0 27 May 2022
Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes Miao Lu Yifei Min Zhaoran Wang Zhuoran Yang OffRL 57 22 0 26 May 2022
Towards Learning Universal Hyperparameter Optimizers with Transformers Yutian Chen Xingyou Song Chansoo Lee Zehao Wang Qiuyi Zhang ... Greg Kochanski Arnaud Doucet MarcÁurelio Ranzato Sagi Perel Nando de Freitas 32 63 0 26 May 2022
Offline Policy Comparison with Confidence: Benchmarks and Baselines Anurag Koul Mariano Phielipp Alan Fern OffRL 28 0 0 22 May 2022
User-Interactive Offline Reinforcement Learning Phillip Swazinna Steffen Udluft Thomas Runkler OffRL 30 11 0 21 May 2022
Planning with Diffusion for Flexible Behavior Synthesis Michael Janner Yilun Du J. Tenenbaum Sergey Levine DiffM 202 637 0 20 May 2022
Data Valuation for Offline Reinforcement Learning Amir Abolfazli Gregory Palmer D. Kudenko OffRL 28 0 0 19 May 2022
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space Kuan Fang Patrick Yin Ashvin Nair Sergey Levine OffRL 58 29 0 17 May 2022
How to Spend Your Robot Time: Bridging Kickstarting and Offline Reinforcement Learning for Vision-based Robotic Manipulation Alex X. Lee Coline Devin Jost Tobias Springenberg Yuxiang Zhou Thomas Lampe A. Abdolmaleki Konstantinos Bousmalis OffRL OnRL 26 15 0 06 May 2022
BATS: Best Action Trajectory Stitching I. Char Viraj Mehta Adam R. Villaflor John M. Dolan J. Schneider OffRL 32 8 0 26 Apr 2022
Forgetting and Imbalance in Robot Lifelong Learning with Off-policy Data Wenxuan Zhou Steven Bohez Jan Humplik A. Abdolmaleki Dushyant Rao Markus Wulfmeier Tuomas Haarnoja N. Heess OffRL 40 6 0 12 Apr 2022
Offline Reinforcement Learning for Safer Blood Glucose Control in People with Type 1 Diabetes Harry Emerson Matt Guy Ryan McConville OffRL 32 46 0 07 Apr 2022
Off-Policy Evaluation with Online Adaptation for Robot Exploration in Challenging Environments Yafei Hu Junyi Geng Chen Wang John Keller Sebastian Scherer OffRL 28 15 0 07 Apr 2022
Jump-Start Reinforcement Learning Ikechukwu Uchendu Ted Xiao Yao Lu Banghua Zhu Mengyuan Yan ... Chuyuan Fu Cong Ma Jiantao Jiao Sergey Levine Karol Hausman OffRL OnRL 44 109 0 05 Apr 2022
Demonstration-Bootstrapped Autonomous Practicing via Multi-Task Reinforcement Learning Abhishek Gupta Corey Lynch Brandon Kinman Garrett Peake Sergey Levine Karol Hausman OffRL 19 17 0 29 Mar 2022
A Conservative Q-Learning approach for handling distribution shift in sepsis treatment strategies Pramod S. Kaushik Sneha Kummetha Perusha Moodley R. Bapi OOD OffRL 9 7 0 25 Mar 2022
Infinite-Horizon Reach-Avoid Zero-Sum Games via Deep Reinforcement Learning Jingqi Li Donggun Lee Somayeh Sojoudi Claire Tomlin 21 11 0 18 Mar 2022
RB2: Robotic Manipulation Benchmarking with a Twist Sudeep Dasari Jianren Wang Joyce Hong Shikhar Bahl Yixin Lin ... David Held Lerrel Pinto Deepak Pathak Vikash Kumar Abhi Gupta 32 27 0 15 Mar 2022
The Efficacy of Pessimism in Asynchronous Q-Learning Yuling Yan Gen Li Yuxin Chen Jianqing Fan OffRL 78 40 0 14 Mar 2022
DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement Learning Jinxin Liu Hongyin Zhang Donglin Wang OffRL 38 33 0 13 Mar 2022
Near-optimal Offline Reinforcement Learning with Linear Representation: Leveraging Variance Information with Pessimism Ming Yin Yaqi Duan Mengdi Wang Yu Wang OffRL 34 66 0 11 Mar 2022
Offline Deep Reinforcement Learning for Dynamic Pricing of Consumer Credit Raad Khraishi Ramin Okhrati OffRL 29 5 0 06 Mar 2022
LobsDICE: Offline Learning from Observation via Stationary Distribution Correction Estimation Geon-hyeong Kim Jongmin Lee Youngsoo Jang Hongseok Yang Kyungmin Kim OffRL 33 15 0 28 Feb 2022
Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning Chenjia Bai Lingxiao Wang Zhuoran Yang Zhihong Deng Animesh Garg Peng Liu Zhaoran Wang OffRL 40 132 0 23 Feb 2022
Reinforcement Learning in Practice: Opportunities and Challenges Yuxi Li OffRL 38 9 0 23 Feb 2022
Supported Policy Optimization for Offline Reinforcement Learning Jialong Wu Haixu Wu Zihan Qiu Jianmin Wang Mingsheng Long OffRL 35 65 0 13 Feb 2022
Rethinking Goal-conditioned Supervised Learning and Its Connection to Offline RL Rui Yang Yiming Lu Wenzhe Li Hao Sun Meng Fang Yali Du Xiu Li Lei Han Chongjie Zhang OffRL 46 67 0 09 Feb 2022
Model-Based Offline Meta-Reinforcement Learning with Regularization Sen Lin Jialin Wan Tengyu Xu Yingbin Liang Junshan Zhang OffRL 33 17 0 07 Feb 2022
Adversarially Trained Actor Critic for Offline Reinforcement Learning Ching-An Cheng Tengyang Xie Nan Jiang Alekh Agarwal OffRL 16 127 0 05 Feb 2022
Versatile Offline Imitation from Observations and Examples via Regularized State-Occupancy Matching Yecheng Jason Ma Andrew Shen Dinesh Jayaraman Osbert Bastani OffRL 23 32 0 04 Feb 2022
Offline Reinforcement Learning for Mobile Notifications Yiping Yuan A. Muralidharan Preetam Nandy Miao Cheng Prakruthi Prabhakar OffRL 36 9 0 04 Feb 2022
Can Wikipedia Help Offline Reinforcement Learning? Machel Reid Yutaro Yamada S. Gu 3DV RALM OffRL 140 95 0 28 Jan 2022
Conservative Distributional Reinforcement Learning with Safety Constraints Hengrui Zhang Youfang Lin Sheng Han Shuo Wang Kai Lv OffRL 23 5 0 18 Jan 2022
Automated Reinforcement Learning (AutoRL): A Survey and Open Problems Jack Parker-Holder Raghunandan Rajan Xingyou Song André Biedenkapp Yingjie Miao ... Vu-Linh Nguyen Roberto Calandra Aleksandra Faust Frank Hutter Marius Lindauer AI4CE 33 100 0 11 Jan 2022
Offline Reinforcement Learning for Road Traffic Control Mayuresh Kunjir Sanjay Chawla OffRL 32 4 0 07 Jan 2022
Importance of Empirical Sample Complexity Analysis for Offline Reinforcement Learning Samin Yeasar Arnob Riashat Islam Doina Precup OffRL 16 4 0 31 Dec 2021
RvS: What is Essential for Offline RL via Supervised Learning? Scott Emmons Benjamin Eysenbach Ilya Kostrikov Sergey Levine OffRL 31 170 0 20 Dec 2021
Data Augmentation through Expert-guided Symmetry Detection to Improve Performance in Offline Reinforcement Learning Giorgio Angelotti Nicolas Drougard Caroline Ponzoni Carvalho Chanel OffRL 33 2 0 18 Dec 2021
Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic Zhihai Wang Jie Wang Qi Zhou Bin Li Houqiang Li 27 30 0 16 Dec 2021
Learning Contraction Policies from Offline Data Navid Rezazadeh Maxwell Kolarich Solmaz S. Kia Negar Mehr OffRL 24 7 0 11 Dec 2021
Learning Transferable Motor Skills with Hierarchical Latent Mixture Policies Dushyant Rao Fereshteh Sadeghi Leonard Hasenclever Markus Wulfmeier Martina Zambelli ... Dhruva Tirumala Y. Aytar J. Merel N. Heess R. Hadsell 26 28 0 09 Dec 2021