PTR-PPO: Proximal Policy Optimization with Prioritized Trajectory Replay

7 December 2021

Papers citing "PTR-PPO: Proximal Policy Optimization with Prioritized Trajectory Replay"

6 / 6 papers shown

Title
Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning Abdullah Vanlioglu 82 0 0 28 Mar 2025
Adversarial Robustness of Streaming Algorithms through Importance Sampling Vladimir Braverman Avinatan Hassidim Yossi Matias Mariano Schain Sandeep Silwal Samson Zhou AAML OOD 33 39 0 28 Jun 2021
Energy-Based Hindsight Experience Prioritization Rui Zhao Volker Tresp 94 74 0 02 Oct 2018
Distributed Prioritized Experience Replay Dan Horgan John Quan David Budden Gabriel Barth-Maron Matteo Hessel H. V. Hasselt David Silver 124 736 0 02 Mar 2018
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 148 8,805 0 04 Feb 2016
Prioritized Experience Replay Tom Schaul John Quan Ioannis Antonoglou David Silver OffRL 181 3,777 0 18 Nov 2015