Fine-tuning Language Models with Generative Adversarial Reward Modelling

v1v2v3 (latest)

Fine-tuning Language Models with Generative Adversarial Reward Modelling

9 May 2023

Bryan Kian Hsiang Low

ArXiv (abs)PDF HTML

Papers citing "Fine-tuning Language Models with Generative Adversarial Reward Modelling"

11 / 11 papers shown

Title
Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data Atilla Akkus Mingjie Li Junjie Chu Junjie Chu Michael Backes Sinem Sav Sinem Sav SILM SyDa 102 4 0 12 Sep 2024
AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback Yann Dubois Xuechen Li Rohan Taori Tianyi Zhang Ishaan Gulrajani Jimmy Ba Carlos Guestrin Percy Liang Tatsunori B. Hashimoto ALM 132 600 0 22 May 2023
Perspectives on the Social Impacts of Reinforcement Learning with Human Feedback Gabrielle K. Liu OffRL 100 21 0 06 Mar 2023
Constitutional AI: Harmlessness from AI Feedback Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell John Kernion ... Dario Amodei Nicholas Joseph Sam McCandlish Tom B. Brown Jared Kaplan SyDa MoMe 201 1,634 0 15 Dec 2022
Combating Mode Collapse in GAN training: An Empirical Analysis using Hessian Eigenvalues Ricard Durall Avraam Chatzimichailidis P. Labus J. Keuper GAN 63 59 0 17 Dec 2020
A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications Jie Gui Zhenan Sun Yonggang Wen Dacheng Tao Jieping Ye EGVM 95 838 0 20 Jan 2020
Inverse Reward Design Dylan Hadfield-Menell S. Milli Pieter Abbeel Stuart J. Russell Anca Dragan 81 398 0 08 Nov 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 517 19,065 0 20 Jul 2017
Categorical Reparameterization with Gumbel-Softmax Eric Jang S. Gu Ben Poole BDL 342 5,372 0 03 Nov 2016
The Concrete Distribution: A Continuous Relaxation of Discrete Random Variables Chris J. Maddison A. Mnih Yee Whye Teh BDL 196 2,533 0 02 Nov 2016
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 289 8,160 0 16 Jun 2016