Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning

Robust Preference Learning for Storytelling via Contrastive Reinforcement Learning

14 October 2022

Louis Castricato

Alexander Havrilla

Shahbuland Matiana

Spencer Frazier

Papers citing "Robust Preference Learning for Storytelling via Contrastive Reinforcement Learning"

14 / 14 papers shown

Title
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model Yueqin Yin Shentao Yang Yujia Xie Ziyi Yang Yuting Sun Hany Awadalla Weizhu Chen Mingyuan Zhou 50 0 0 07 Jan 2025
GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets Oh Joon Kwon Daiki E. Matsunaga Kee-Eung Kim AI4CE 24 0 0 19 Oct 2024
Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems Italo Luis da Silva Hanqi Yan Lin Gui Yulan He CML 36 0 0 26 Jun 2024
From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models Sean Welleck Amanda Bertsch Matthew Finlayson Hailey Schoelkopf Alex Xie Graham Neubig Ilia Kulikov Zaid Harchaoui 33 50 0 24 Jun 2024
A Dense Reward View on Aligning Text-to-Image Diffusion with Preference Shentao Yang Tianqi Chen Mingyuan Zhou EGVM 32 22 0 13 Feb 2024
Suppressing Pink Elephants with Direct Principle Feedback Louis Castricato Nathan Lile Suraj Anand Hailey Schoelkopf Siddharth Verma Stella Biderman 63 9 0 12 Feb 2024
SWAG: Storytelling With Action Guidance Zeeshan Patel Karim El-Refai Jonathan Pei Tianle Li LLMAG 23 4 0 05 Feb 2024
The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values Hannah Rose Kirk Andrew M. Bean Bertie Vidgen Paul Röttger Scott A. Hale ALM 21 41 0 11 Oct 2023
Understanding the Effects of RLHF on LLM Generalisation and Diversity Robert Kirk Ishita Mediratta Christoforos Nalmpantis Jelena Luketina Eric Hambro Edward Grefenstette Roberta Raileanu AI4CE ALM 106 121 0 10 Oct 2023
Preference-grounded Token-level Guidance for Language Model Fine-tuning Shentao Yang Shujian Zhang Congying Xia Yihao Feng Caiming Xiong Mi Zhou 23 23 0 01 Jun 2023
GPTScore: Evaluate as You Desire Jinlan Fu See-Kiong Ng Zhengbao Jiang Pengfei Liu LM&MA ALM ELM 15 264 0 08 Feb 2023
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 330 2,267 0 02 Sep 2021
Meta Pseudo Labels Hieu H. Pham Zihang Dai Qizhe Xie Minh-Thang Luong Quoc V. Le VLM 253 656 0 23 Mar 2020
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 214 616 0 03 Sep 2019