A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes

v1v2 (latest)

A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes

15 May 2023

Tong Zhang

ArXiv (abs)PDF HTML

Papers citing "A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes"

8 / 8 papers shown

Title
Enhancing PPO with Trajectory-Aware Hybrid Policies Qisai Liu Zhanhong Jiang Hsin-Jung Yang Mahsa Khosravi Joshua R. Waite Soumik Sarkar 112 0 0 21 Feb 2025
Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning Dake Zhang Boxiang Lyu Shuang Qiu Mladen Kolar Tong Zhang OffRL 78 0 0 10 Jul 2024
Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization D. Tiapkin Evgenii Chzhen Gilles Stoltz 125 1 0 08 Jul 2024
DPO Meets PPO: Reinforced Token Optimization for RLHF Han Zhong Zikang Shan Guhao Feng Wei Xiong Xinle Cheng Li Zhao Di He Jiang Bian Liwei Wang 155 72 0 29 Apr 2024
Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm Miao Lu Han Zhong Tong Zhang Jose H. Blanchet OffRL OOD 107 10 0 04 Apr 2024
Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition Long-Fei Li Peng Zhao Zhi Zhou 90 6 0 07 Mar 2024
Towards Optimal Regret in Adversarial Linear MDPs with Bandit Feedback Haolin Liu Chen-Yu Wei Julian Zimmert 78 6 0 17 Oct 2023
Tackling Heavy-Tailed Rewards in Reinforcement Learning with Function Approximation: Minimax Optimal and Instance-Dependent Regret Bounds Jiayi Huang Han Zhong Liwei Wang Lin F. Yang 83 10 0 12 Jun 2023