v1v2 (latest)

Fine-Tuning Language Models from Human Preferences

18 September 2019

Papers citing "Fine-Tuning Language Models from Human Preferences"

50 / 1,265 papers shown

Title
Calibrate your listeners! Robust communication-based training for pragmatic speakers Rose E. Wang Julia White Jesse Mu Noah D. Goodman 64 7 0 11 Oct 2021
A MultiModal Social Robot Toward Personalized Emotion Interaction Baijun Xie C. Park 49 4 0 08 Oct 2021
Style Control for Schema-Guided Natural Language Generation Alicia Y. Tsai Shereen Oraby Vittorio Perera Jiun-Yu Kao Yuheng Du Anjali Narayan-Chen Tagyoung Chung Dilek Z. Hakkani-Tür 130 12 0 24 Sep 2021
Recursively Summarizing Books with Human Feedback Jeff Wu Long Ouyang Daniel M. Ziegler Nissan Stiennon Ryan J. Lowe Jan Leike Paul Christiano ALM 233 303 0 22 Sep 2021
A Plug-and-Play Method for Controlled Text Generation Damian Pascual Béni Egressy Clara Meister Ryan Cotterell Roger Wattenhofer 130 94 0 20 Sep 2021
Automatically Exposing Problems with Neural Dialog Models Dian Yu Kenji Sagae 110 9 0 14 Sep 2021
Generating Self-Contained and Summary-Centric Question Answer Pairs via Differentiable Reward Imitation Learning Li Zhou Kevin Small Yong Zhang Sandeep Atluri 81 2 0 10 Sep 2021
SideControl: Controlled Open-domain Dialogue Generation via Additive Side Networks Wanyu Du Yangfeng Ji AI4CE 47 7 0 05 Sep 2021
What Users Want? WARHOL: A Generative Model for Recommendation Jules Samaran Ugo Tanielian Romain Beaumont Flavian Vasile HAI 35 0 0 02 Sep 2021
OptAGAN: Entropy-based finetuning on text VAE-GAN Paolo Tirotta Stefano Lodi DRL 36 0 0 01 Sep 2021
Skill Preferences: Learning to Extract and Execute Robotic Skills from Human Feedback Xiaofei Wang Kimin Lee Kourosh Hakhamaneshi Pieter Abbeel Michael Laskin 125 45 0 11 Aug 2021
Language Model Evaluation in Open-ended Text Generation An Nguyen 105 3 0 08 Aug 2021
Controllable Summarization with Constrained Markov Decision Process Hou Pong Chan Lu Wang Irwin King 255 22 0 07 Aug 2021
Controlled Text Generation as Continuous Optimization with Multiple Constraints Sachin Kumar Eric Malmi Aliaksei Severyn Yulia Tsvetkov BDL AI4CE 106 79 0 04 Aug 2021
A Survey of Human-in-the-loop for Machine Learning Xingjiao Wu Luwei Xiao Yixuan Sun Junhang Zhang Tianlong Ma Liangbo He SyDa 137 532 0 02 Aug 2021
Neural Rule-Execution Tracking Machine For Transformer-Based Text Generation Yufei Wang Can Xu Huang Hu Chongyang Tao Stephen Wan Mark Dras Mark Johnson Daxin Jiang 57 10 0 27 Jul 2021
Deep Extrapolation for Attribute-Enhanced Generation Alvin Chan Ali Madani Ben Krause Nikhil Naik 114 26 0 07 Jul 2021
Generative Conversational Networks Alexandros Papangelis Karthik Gopalakrishnan Aishwarya Padmakumar Seokhwan Kim Gokhan Tur Dilek Z. Hakkani-Tür 84 18 0 15 Jun 2021
Energy-Based Models for Code Generation under Compilability Constraints Tomasz Korbak Hady ElSahar Marc Dymetman Germán Kruszewski 151 13 0 09 Jun 2021
Diversity driven Query Rewriting in Search Advertising Akash Kumar Mohankumar Nikit Begwani Amit Singh 54 26 0 07 Jun 2021
Decision Transformer: Reinforcement Learning via Sequence Modeling Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel A. Srinivas Igor Mordatch OffRL 196 1,667 0 02 Jun 2021
Training Value-Aligned Reinforcement Learning Agents Using a Normative Prior Md Sultan al Nahian Spencer Frazier Brent Harrison Mark O. Riedl 97 19 0 19 Apr 2021
Estimating Subjective Crowd-Evaluations as an Additional Objective to Improve Natural Language Generation Jakob Nyberg R. Manuvinakurike Maike Paetzel-Prüsmann ALM 32 0 0 12 Apr 2021
FUDGE: Controlled Text Generation With Future Discriminators Kevin Kaichuang Yang Dan Klein 109 337 0 12 Apr 2021
Unsupervised Contextual Paraphrase Generation using Lexical Control and Reinforcement Learning Sonal Garg Sumanth Prabhu Hemant Misra G. Srinivasaraghavan 62 14 0 23 Mar 2021
Attribute Alignment: Controlling Text Generation from Pre-trained Language Models Dian Yu Zhou Yu Kenji Sagae 82 39 0 20 Mar 2021
Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation Nicholas Egan Oleg V. Vasilyev John Bohannon HILM 44 20 0 19 Mar 2021
Constrained Text Generation with Global Guidance -- Case Study on CommonGen Yixian Liu Liwen Zhang Wenjuan Han Yue Zhang Kewei Tu 87 10 0 12 Mar 2021
DRAG: Director-Generator Language Modelling Framework for Non-Parallel Author Stylized Rewriting Hrituraj Singh Gaurav Verma Aparna Garimella Balaji Vasan Srinivasan DiffM 37 6 0 28 Jan 2021
Evaluating Models of Robust Word Recognition with Serial Reproduction Stephan C. Meylan Sathvik Nair Thomas Griffiths 57 4 0 24 Jan 2021
Belief-based Generation of Argumentative Claims Milad Alshomary Wei-Fan Chen Timon Ziegenbein Henning Wachsmuth 181 25 0 24 Jan 2021
Directed Beam Search: Plug-and-Play Lexically Constrained Language Generation Damian Pascual Béni Egressy Florian Bolli Roger Wattenhofer 81 20 0 31 Dec 2020
Is human scoring the best criteria for summary evaluation? Oleg V. Vasilyev John Bohannon 41 11 0 29 Dec 2020
A Distributional Approach to Controlled Text Generation Muhammad Khalifa Hady ElSahar Marc Dymetman 167 119 0 21 Dec 2020
Breaking Writer's Block: Low-cost Fine-tuning of Natural Language Generation Models Alexandre Duval Thomas Lamson Gael de Leseleuc de Kerouara Matthias Gallé 47 0 0 19 Dec 2020
Generating Intelligible Plumitifs Descriptions: Use Case Application with Ethical Considerations David Beauchemin Nicolas Garneau Eve Gaumond Pierre-Luc Déziel Richard Khoury Luc Lamontagne AILaw 47 9 0 24 Nov 2020
Conditioned Natural Language Generation using only Unconditioned Language Model: An Exploration Fan-Keng Sun Cheng-I Jeff Lai 67 17 0 14 Nov 2020
Offline Reinforcement Learning from Human Feedback in Real-World Sequence-to-Sequence Tasks Julia Kreutzer Stefan Riezler Carolin (Haas) Lawrence RALM OffRL 65 15 0 04 Nov 2020
Incorporating Stylistic Lexical Preferences in Generative Language Models Hrituraj Singh Gaurav Verma Balaji Vasan Srinivasan 26 5 0 22 Oct 2020
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs Ana Marasović Chandra Bhagavatula J. S. Park Ronan Le Bras Noah A. Smith Yejin Choi ReLM LRM 99 62 0 15 Oct 2020
Summarizing Text on Any Aspects: A Knowledge-Informed Weakly-Supervised Approach Bowen Tan Lianhui Qin Eric Xing Zhiting Hu 72 38 0 14 Oct 2020
Sensitivity of BLANC to human-scored qualities of text summaries Oleg V. Vasilyev Vedant Dharnidharka Nicholas Egan Charlene Chambliss John Bohannon 51 7 0 13 Oct 2020
Human-centric Dialog Training via Offline Reinforcement Learning Natasha Jaques J. Shen Asma Ghandeharioun Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 84 96 0 12 Oct 2020
Reformulating Unsupervised Style Transfer as Paraphrase Generation Kalpesh Krishna John Wieting Mohit Iyyer 88 242 0 12 Oct 2020
Plug-and-Play Conversational Models Andrea Madotto Etsuko Ishii Zhaojiang Lin Sumanth Dathathri Pascale Fung 82 51 0 09 Oct 2020
Controllable Text Generation with Focused Variation Lei Shu Alexandros Papangelis Yi-Chia Wang Gokhan Tur Hu Xu Zhaleh Feizollahi Bing-Quan Liu Piero Molino 86 11 0 25 Sep 2020
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models Samuel Gehman Suchin Gururangan Maarten Sap Yejin Choi Noah A. Smith 222 1,224 0 24 Sep 2020
GeDi: Generative Discriminator Guided Sequence Generation Ben Krause Akhilesh Deepak Gotmare Bryan McCann N. Keskar Shafiq Joty R. Socher Nazneen Rajani 167 408 0 14 Sep 2020
Learning to summarize from human feedback Nisan Stiennon Long Ouyang Jeff Wu Daniel M. Ziegler Ryan J. Lowe Chelsea Voss Alec Radford Dario Amodei Paul Christiano ALM 295 2,195 0 02 Sep 2020
ETC-NLG: End-to-end Topic-Conditioned Natural Language Generation Ginevra Carbone Gabriele Sarti 94 9 0 25 Aug 2020