Policy Optimization for Continuous Reinforcement Learning

Policy Optimization for Continuous Reinforcement Learning

30 May 2023

Papers citing "Policy Optimization for Continuous Reinforcement Learning"

13 / 13 papers shown

Title
Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models Zhengliang Shi Lingyong Yan Weiwei Sun Yue Feng Pengjie Ren Xinyu Ma Shuaiqiang Wang D. Yin Maarten de Rijke Z. Ren RALM 48 0 0 05 May 2025
Learning a Diffusion Model Policy from Rewards via Q-Score Matching Michael Psenka Alejandro Escontrela Pieter Abbeel Yi Ma DiffM 93 24 0 17 Feb 2025
Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning Hanyang Zhao Haoxian Chen Ji Zhang D. Yao Wenpin Tang 60 0 0 03 Feb 2025
Regret of exploratory policy improvement and $q$ -learning Wenpin Tang X. Zhou 44 0 0 02 Nov 2024
Action Gaps and Advantages in Continuous-Time Distributional Reinforcement Learning Harley Wiltzer Marc G. Bellemare D. Meger Patrick Shafto Yash Jhaveri 34 1 0 14 Oct 2024
Neural Coordination and Capacity Control for Inventory Management Carson Eisenach Udaya Ghai Dhruv Madeka Kari Torkkola Dean Phillips Foster Sham Kakade 26 0 0 24 Sep 2024
Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learning Hanyang Zhao Haoxian Chen Ji Zhang David D. Yao Wenpin Tang 55 3 0 12 Sep 2024
Reinforcement Learning for Intensity Control: An Application to Choice-Based Network Revenue Management Huiling Meng Ningyuan Chen Xuefeng Gao 60 1 0 08 Jun 2024
Score-based Diffusion Models via Stochastic Differential Equations -- a Technical Tutorial Wenpin Tang Hanyang Zhao DiffM 44 23 0 12 Feb 2024
Contractive Diffusion Probabilistic Models Wenpin Tang Hanyang Zhao DiffM 46 12 0 23 Jan 2024
Learning an Inventory Control Policy with General Inventory Arrival Dynamics Sohrab Andaz Carson Eisenach Dhruv Madeka Kari Torkkola Randy Jia Dean Phillips Foster Sham Kakade 33 2 0 26 Oct 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 328 2,232 0 22 Mar 2023
Deep Inventory Management Dhruv Madeka Kari Torkkola Carson Eisenach Anna Luo Dean Phillips Foster Sham M. Kakade BDL 45 15 0 06 Oct 2022