Privately Aligning Language Models with Reinforcement Learning

Privately Aligning Language Models with Reinforcement Learning

25 October 2023

Huseyin A. Inan

Varun Chandrasekaran

Janardhan Kulkarni

Papers citing "Privately Aligning Language Models with Reinforcement Learning"

11 / 11 papers shown

Title
Empirical Privacy Variance Yuzheng Hu Fan Wu Ruicheng Xian Yuhang Liu Lydia Zakynthinou Pritish Kamath Chiyuan Zhang David A. Forsyth 75 0 0 16 Mar 2025
SoK: Privacy-Preserving Data Synthesis Yuzheng Hu Fan Wu Yue Liu Yunhui Long Gonzalo Munilla Garrido Chang Ge Bolin Ding David A. Forsyth Yue Liu D. Song 70 27 0 05 Jul 2023
Differentially Private Language Models for Secure Data Sharing Justus Mattern Zhijing Jin Benjamin Weggenmann Bernhard Schoelkopf Mrinmaya Sachan SyDa 38 47 0 25 Oct 2022
Offline Reinforcement Learning with Differential Privacy Dan Qiao Yu Wang OffRL 49 23 0 02 Jun 2022
Quantifying Memorization Across Neural Language Models Nicholas Carlini Daphne Ippolito Matthew Jagielski Katherine Lee Florian Tramèr Chiyuan Zhang PILM 74 603 0 15 Feb 2022
Differentially Private Fine-tuning of Language Models Da Yu Saurabh Naik A. Backurs Sivakanth Gopi Huseyin A. Inan ... Y. Lee Andre Manoel Lukas Wutschitz Sergey Yekhanin Huishuai Zhang 174 356 0 13 Oct 2021
Recursively Summarizing Books with Human Feedback Jeff Wu Long Ouyang Daniel M. Ziegler Nissan Stiennon Ryan J. Lowe Jan Leike Paul Christiano ALM 88 301 0 22 Sep 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 401 1,868 0 14 Dec 2020
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 390 24,160 0 26 Jul 2019
Improving the Gaussian Mechanism for Differential Privacy: Analytical Calibration and Optimal Denoising Borja Balle Yu Wang MLT 47 395 0 16 May 2018
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 203 18,685 0 20 Jul 2017