When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad
Responses into Good Labels

When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad Responses into Good Labels

28 October 2022

Jason Weston

Papers citing "When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad Responses into Good Labels"

19 / 19 papers shown

Title
ConsistencyTrack: A Robust Multi-Object Tracker with a Generation Strategy of Consistency Model Lifan Jiang Zhihui Wang Siqi Yin Guangxiao Ma Peng Zhang Boxi Wu DiffM 59 0 0 28 Aug 2024
Roleplay-doh: Enabling Domain-Experts to Create LLM-simulated Patients via Eliciting and Adhering to Principles Ryan Louie Ananjan Nandi William Fang Cheng Chang Emma Brunskill Diyi Yang 42 38 0 01 Jul 2024
Aligning LLM Agents by Learning Latent Preference from User Edits Ge Gao Alexey Taymanov Eduardo Salinas Paul Mineiro Dipendra Kumar Misra LLMAG 37 27 0 23 Apr 2024
DUnE: Dataset for Unified Editing Afra Feyza Akyürek Eric Pan Garry Kuwanto Derry Wijaya KELM 32 17 0 27 Nov 2023
What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception Chaitanya Malaviya Subin Lee Dan Roth Mark Yatskar 34 1 0 16 Nov 2023
Constructive Large Language Models Alignment with Diverse Feedback Tianshu Yu Ting-En Lin Yuchuan Wu Min Yang Fei Huang Yongbin Li ALM 40 9 0 10 Oct 2023
Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models Hritik Bansal John Dang Aditya Grover ALM 35 20 0 30 Aug 2023
Leveraging Implicit Feedback from Deployment Data in Dialogue Richard Yuanzhe Pang Stephen Roller Kyunghyun Cho He He Jason Weston 51 7 0 26 Jul 2023
Let Me Teach You: Pedagogical Foundations of Feedback for Language Models Beatriz Borges Niket Tandon Tanja Kaser Antoine Bosselut 22 3 0 01 Jul 2023
System-Level Natural Language Feedback Weizhe Yuan Kyunghyun Cho Jason Weston 35 5 0 23 Jun 2023
Improving Open Language Models by Learning from Organic Interactions Jing Xu Da Ju Joshua Lane M. Komeili Eric Michael Smith ... Rashel Moritz Sainbayar Sukhbaatar Y-Lan Boureau Jason Weston Kurt Shuster 25 8 0 07 Jun 2023
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training Zeqiu Wu Yushi Hu Weijia Shi Nouha Dziri Alane Suhr Prithviraj Ammanabrolu Noah A. Smith Mari Ostendorf Hannaneh Hajishirzi ALM 30 304 0 02 Jun 2023
AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback Yann Dubois Xuechen Li Rohan Taori Tianyi Zhang Ishaan Gulrajani Jimmy Ba Carlos Guestrin Percy Liang Tatsunori B. Hashimoto ALM 45 542 0 22 May 2023
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs Afra Feyza Akyürek Ekin Akyürek Aman Madaan A. Kalyan Peter Clark Derry Wijaya Niket Tandon ALM KELM 39 86 0 15 May 2023
Training Language Models with Language Feedback at Scale Jérémy Scheurer Jon Ander Campos Tomasz Korbak Jun Shern Chan Angelica Chen Kyunghyun Cho Ethan Perez ALM 39 101 0 28 Mar 2023
Constitutional AI: Harmlessness from AI Feedback Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell John Kernion ... Dario Amodei Nicholas Joseph Sam McCandlish Tom B. Brown Jared Kaplan SyDa MoMe 67 1,477 0 15 Dec 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022
Internet-Augmented Dialogue Generation M. Komeili Kurt Shuster Jason Weston RALM 238 280 0 15 Jul 2021
Dialogue Learning With Human-In-The-Loop Jiwei Li Alexander H. Miller S. Chopra MarcÁurelio Ranzato Jason Weston OffRL 227 134 0 29 Nov 2016