KL-regularization Itself is Differentially Private in Bandits and RLHF

23 May 2025

Papers citing "KL-regularization Itself is Differentially Private in Bandits and RLHF"

3 / 3 papers shown

Title
Towards User-level Private Reinforcement Learning with Human Feedback Jing Zhang Mingxi Lei Meng Ding Mengdi Li Zihang Xiang Difei Xu Jinhui Xu Di Wang 115 3 0 22 Feb 2025
Differentially Private Policy Gradient Alexandre Rio M. Barlier Igor Colin OffRL 71 1 0 31 Jan 2025
Sharp Analysis for KL-Regularized Contextual Bandits and RLHF Heyang Zhao Chenlu Ye Quanquan Gu Tong Zhang OffRL 234 6 0 07 Nov 2024