Settling the Sample Complexity of Model-Based Offline Reinforcement Learning

11 April 2022

Papers citing "Settling the Sample Complexity of Model-Based Offline Reinforcement Learning"

50 / 54 papers shown

Title
A Unified Theoretical Analysis of Private and Robust Offline Alignment: from RLHF to DPO Xingyu Zhou Yulian Wu Francesco Orabona OffRL 9 0 0 21 May 2025
Towards Optimal Offline Reinforcement Learning Mengmeng Li Daniel Kuhn Tobias Sutter OffRL 62 0 0 15 Mar 2025
Statistical Inference in Reinforcement Learning: A Selective Survey Chengchun Shi OffRL 71 1 0 22 Feb 2025
Nearly Optimal Sample Complexity of Offline KL-Regularized Contextual Bandits under Single-Policy Concentrability Qingyue Zhao Kaixuan Ji Heyang Zhao Tong Zhang Q. Gu OffRL 50 0 0 09 Feb 2025
Dual Alignment Maximin Optimization for Offline Model-based RL Chi Zhou Wang Luo Haoran Li Congying Han Tiande Guo Zicheng Zhang OffRL 75 0 0 02 Feb 2025
Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques Natalia Zhang X. Wang Qiwen Cui Runlong Zhou Sham Kakade Simon S. Du OffRL 50 0 0 10 Jan 2025
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning Wang Luo Haoran Li Zicheng Zhang Congying Han Jiayu Lv Tiande Guo OffRL 50 1 0 23 Aug 2024
Hybrid Reinforcement Learning Breaks Sample Size Barriers in Linear MDPs Kevin Tan Wei Fan Yuting Wei OffRL 77 3 0 08 Aug 2024
Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning Dake Zhang Boxiang Lyu Shuang Qiu Mladen Kolar Tong Zhang OffRL 38 0 0 10 Jul 2024
Primitive Agentic First-Order Optimization R. Sala 29 0 0 07 Jun 2024
Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models Xiang Ji Sanjeev Kulkarni Mengdi Wang Tengyang Xie OffRL 45 4 0 06 Jun 2024
Long-Horizon Rollout via Dynamics Diffusion for Offline Reinforcement Learning Hanye Zhao Xiaoshen Han Zhengbang Zhu Minghuan Liu Yong Yu Weinan Zhang OffRL 47 0 0 29 May 2024
Offline RL via Feature-Occupancy Gradient Ascent Gergely Neu Nneka Okolo OffRL 34 0 0 22 May 2024
Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes He Wang Laixi Shi Yuejie Chi OffRL 36 7 0 19 Mar 2024
Is Offline Decision Making Possible with Only Few Samples? Reliable Decisions in Data-Starved Bandits via Trust Region Enhancement Ruiqi Zhang Yuexiang Zhai Andrea Zanette 51 0 0 24 Feb 2024
Federated Offline Reinforcement Learning: Collaborative Single-Policy Coverage Suffices Jiin Woo Laixi Shi Gauri Joshi Yuejie Chi OffRL 34 3 0 08 Feb 2024
Learning from Sparse Offline Datasets via Conservative Density Estimation Zhepeng Cen Zuxin Liu Zitong Wang Yi-Fan Yao Henry Lam Ding Zhao OffRL 28 7 0 16 Jan 2024
RLIF: Interactive Imitation Learning as Reinforcement Learning Jianlan Luo Perry Dong Yuexiang Zhai Yi Ma Sergey Levine OffRL 33 14 0 21 Nov 2023
Bridging Distributionally Robust Learning and Offline RL: An Approach to Mitigate Distribution Shift and Partial Data Coverage Kishan Panaganti Zaiyan Xu D. Kalathil Mohammad Ghavamzadeh OOD OffRL 34 7 0 27 Oct 2023
Towards Robust Offline Reinforcement Learning under Diverse Data Corruption Rui Yang Han Zhong Jiawei Xu Amy Zhang Chong Zhang Lei Han Tong Zhang OffRL OnRL 46 15 0 19 Oct 2023
Optimal Sample Complexity for Average Reward Markov Decision Processes Shengbo Wang Jose H. Blanchet Peter Glynn 36 10 0 13 Oct 2023
Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning Qiwei Di Heyang Zhao Jiafan He Quanquan Gu OffRL 61 5 0 02 Oct 2023
Fast and Regret Optimal Best Arm Identification: Fundamental Limits and Low-Complexity Algorithms Qining Zhang Lei Ying 72 4 0 01 Sep 2023
Settling the Sample Complexity of Online Reinforcement Learning Zihan Zhang Yuxin Chen Jason D. Lee S. Du OffRL 98 22 0 25 Jul 2023
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems Xiang Ji Huazheng Wang Minshuo Chen Tuo Zhao Mengdi Wang OffRL 37 6 0 24 Jul 2023
Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity Runyu Zhang Yang Hu Na Li 41 5 0 20 Jun 2023
Provably Efficient Offline Reinforcement Learning with Perturbed Data Sources Chengshuai Shi Wei Xiong Cong Shen Jing Yang OffRL 30 3 0 14 Jun 2023
High-probability sample complexities for policy evaluation with linear function approximation Gen Li Weichen Wu Yuejie Chi Cong Ma Alessandro Rinaldo Yuting Wei OffRL 35 7 0 30 May 2023
Sample Complexity of Variance-reduced Distributionally Robust Q-learning Shengbo Wang Nian Si Jose H. Blanchet Zhengyuan Zhou OOD 29 14 0 28 May 2023
The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model Laixi Shi Gen Li Yuting Wei Yuxin Chen M. Geist Yuejie Chi OOD 47 32 0 26 May 2023
Provable Offline Preference-Based Reinforcement Learning Wenhao Zhan Masatoshi Uehara Nathan Kallus Jason D. Lee Wen Sun OffRL 43 12 0 24 May 2023
Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning Gen Li Wenhao Zhan Jason D. Lee Yuejie Chi Yuxin Chen OffRL OnRL 73 13 0 17 May 2023
Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage Jose H. Blanchet Miao Lu Tong Zhang Han Zhong OffRL 45 30 0 16 May 2023
A Survey on Offline Model-Based Reinforcement Learning Haoyang He OffRL 34 7 0 05 May 2023
Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning Gen Li Yuling Yan Yuxin Chen Jianqing Fan OffRL 76 12 0 14 Apr 2023
On the Sample Complexity of Vanilla Model-Based Offline Reinforcement Learning with Dependent Samples Mustafa O. Karabag Ufuk Topcu OffRL 45 4 0 07 Mar 2023
Optimal Sample Complexity of Reinforcement Learning for Mixing Discounted Markov Decision Processes Shengbo Wang Jose H. Blanchet Peter Glynn 29 5 0 15 Feb 2023
Provably Efficient Offline Goal-Conditioned Reinforcement Learning with General Function Approximation and Single-Policy Concentrability Hanlin Zhu Amy Zhang OffRL 27 2 0 07 Feb 2023
Offline Learning in Markov Games with General Function Approximation Yuheng Zhang Yunru Bai Nan Jiang OffRL 21 8 0 06 Feb 2023
Offline Estimation of Controlled Markov Chains: Minimaxity and Sample Complexity Imon Banerjee Harsha Honnappa Vinayak A. Rao OffRL 11 0 0 14 Nov 2022
Optimal Conservative Offline RL with General Function Approximation via Augmented Lagrangian Paria Rashidinejad Hanlin Zhu Kunhe Yang Stuart J. Russell Jiantao Jiao OffRL 58 27 0 01 Nov 2022
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient Ming Yin Mengdi Wang Yu Wang OffRL 82 12 0 03 Oct 2022
Strategic Decision-Making in the Presence of Information Asymmetry: Provably Efficient RL with Algorithmic Instruments Mengxin Yu Zhuoran Yang Jianqing Fan OffRL 21 8 0 23 Aug 2022
Minimax-Optimal Multi-Agent RL in Markov Games With a Generative Model Gen Li Yuejie Chi Yuting Wei Yuxin Chen 37 18 0 22 Aug 2022
Distributionally Robust Model-Based Offline Reinforcement Learning with Near-Optimal Sample Complexity Laixi Shi Yuejie Chi OOD OffRL 37 61 0 11 Aug 2022
A Near-Optimal Primal-Dual Method for Off-Policy Learning in CMDP Fan Chen Junyu Zhang Zaiwen Wen OffRL 39 8 0 13 Jul 2022
Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward Tengyu Xu Yue Wang Shaofeng Zou Yingbin Liang OffRL 38 13 0 13 Jun 2022
Offline Stochastic Shortest Path: Learning, Evaluation and Towards Optimality Ming Yin Wenjing Chen Mengdi Wang Yu Wang OffRL 30 4 0 10 Jun 2022
On Gap-dependent Bounds for Offline Reinforcement Learning Xinqi Wang Qiwen Cui S. Du OffRL 73 12 0 01 Jun 2022
Provably Efficient Offline Multi-agent Reinforcement Learning via Strategy-wise Bonus Qiwen Cui S. Du OffRL 26 19 0 01 Jun 2022