PTR-PPO: Proximal Policy Optimization with Prioritized Trajectory Replay

7 December 2021

Papers citing "PTR-PPO: Proximal Policy Optimization with Prioritized Trajectory Replay"

6 / 6 papers shown

Title
Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning Abdullah Vanlioglu 76 0 0 28 Mar 2025
Adversarial Robustness of Streaming Algorithms through Importance Sampling Vladimir Braverman Avinatan Hassidim Yossi Matias Mariano Schain Sandeep Silwal Samson Zhou AAML OOD 31 39 0 28 Jun 2021
Energy-Based Hindsight Experience Prioritization Rui Zhao Volker Tresp 81 74 0 02 Oct 2018
Distributed Prioritized Experience Replay Dan Horgan John Quan David Budden Gabriel Barth-Maron Matteo Hessel H. V. Hasselt David Silver 122 736 0 02 Mar 2018
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 134 8,805 0 04 Feb 2016
Prioritized Experience Replay Tom Schaul John Quan Ioannis Antonoglou David Silver OffRL 167 3,777 0 18 Nov 2015