v1v2v3 (latest)

Learning to summarize from human feedback

2 September 2020

Papers citing "Learning to summarize from human feedback"

50 / 1,548 papers shown

Title
On the Creativity of Large Language Models Giorgio Franceschelli Mirco Musolesi 224 60 0 27 Mar 2023
MGTBench: Benchmarking Machine-Generated Text Detection Xinlei He Xinyue Shen Zhenpeng Chen Michael Backes Yang Zhang DeLMO 134 114 0 26 Mar 2023
Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases Yunjie Ji Yong Deng Yan Gong Yiping Peng Qiang Niu Lefei Zhang Baochang Ma Xiangang Li ALM 70 97 0 26 Mar 2023
SmartBook: AI-Assisted Situation Report Generation for Intelligence Analysts R. Reddy Daniel Lee Yi R. Fung Khanh Duy Nguyen Qi Zeng Manling Li Ziqi Wang Clare R. Voss Heng Ji 67 6 0 25 Mar 2023
SPEC: Summary Preference Decomposition for Low-Resource Abstractive Summarization Yi-Syuan Chen Yun-Zhu Song Hong-Han Shuai 66 6 0 24 Mar 2023
Large Language Model Instruction Following: A Survey of Progresses and Challenges Renze Lou Kai Zhang Wenpeng Yin ALM LRM 169 25 0 18 Mar 2023
Blind Multimodal Quality Assessment of Low-light Images Miaohui Wang Zhuowei Xu Mai Xu Weisi Lin 90 2 0 18 Mar 2023
HIVE: Harnessing Human Feedback for Instructional Visual Editing Shu Zhen Zhang Xinyi Yang Yihao Feng Can Qin Chia-Chih Chen ... Haiquan Wang Silvio Savarese Stefano Ermon Caiming Xiong Ran Xu 95 117 0 16 Mar 2023
Robot Navigation in Risky, Crowded Environments: Understanding Human Preferences A. Suresh Angelique Taylor L. Riek Sonia Martínez 57 8 0 15 Mar 2023
Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences Yunjie Ji Yan Gong Yiping Peng Chao Ni Peiyan Sun Dongyu Pan Baochang Ma Xiangang Li ELM ALM AI4MH 76 38 0 14 Mar 2023
Vision-Language Models as Success Detectors Yuqing Du Ksenia Konyushkova Misha Denil A. Raju Jessica Landon Felix Hill Nando de Freitas Serkan Cabi MLLM LRM 130 86 0 13 Mar 2023
ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions Deyao Zhu Jun Chen Kilichbek Haydarov Xiaoqian Shen Wenxuan Zhang Mohamed Elhoseiny MLLM 100 106 0 12 Mar 2023
Rewarding Chatbots for Real-World Engagement with Millions of Users R. Irvine D. Boubert Vyas Raina Adian Liusie Ziyi Zhu ... Valentin Assassi Christie-Carol Beauchamp Xiaoding Lu Thomas Rialan W. Beauchamp ALM 84 43 0 10 Mar 2023
Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback Hannah Rose Kirk Bertie Vidgen Paul Röttger Scott A. Hale 108 107 0 09 Mar 2023
Learning the Legibility of Visual Text Perturbations D. Seth Rickard Stureborg Danish Pruthi Bhuwan Dhingra AAML 80 7 0 09 Mar 2023
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models Chenfei Wu Sheng-Kai Yin Weizhen Qi Xiaodong Wang Zecheng Tang Nan Duan MLLM LRM 150 649 0 08 Mar 2023
Automatically Auditing Large Language Models via Discrete Optimization Erik Jones Anca Dragan Aditi Raghunathan Jacob Steinhardt 127 172 0 08 Mar 2023
A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT Yihan Cao Siyu Li Yixin Liu Zhiling Yan Yutong Dai Philip S. Yu Lichao Sun 120 554 0 07 Mar 2023
Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles Zhiwei Tang Dmitry Rybin Tsung-Hui Chang ALM DiffM 117 30 0 07 Mar 2023
Preference Transformer: Modeling Human Preferences using Transformers for RL Changyeon Kim Jongjin Park Jinwoo Shin Honglak Lee Pieter Abbeel Kimin Lee OffRL 105 75 0 02 Mar 2023
Active Reward Learning from Multiple Teachers Peter Barnett Rachel Freedman Justin Svegliato Stuart J. Russell 73 15 0 02 Mar 2023
Zero-Shot Cross-Lingual Summarization via Large Language Models Jiaan Wang Yunlong Liang Fandong Meng Beiqi Zou Zhixu Li Jianfeng Qu Jie Zhou ELM 139 31 0 28 Feb 2023
A Human-Centered Safe Robot Reinforcement Learning Framework with Interactive Behaviors Shangding Gu Alap Kshirsagar Yali Du Guang Chen Jan Peters Alois C. Knoll 77 14 0 25 Feb 2023
Reward Learning as Doubly Nonparametric Bandits: Optimal Design and Scaling Laws Kush S. Bhatia Wenshuo Guo Jacob Steinhardt 61 0 0 23 Feb 2023
In What Languages are Generative Language Models the Most Formal? Analyzing Formality Distribution across Languages Asim Ersoy Gerson Vizcarra T. Mayeesha Benjamin Muller 72 2 0 23 Feb 2023
Aligning Text-to-Image Models using Human Feedback Kimin Lee Hao Liu Moonkyung Ryu Olivia Watkins Yuqing Du Craig Boutilier Pieter Abbeel Mohammad Ghavamzadeh S. Gu EGVM 169 286 0 23 Feb 2023
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection Kai Greshake Sahar Abdelnabi Shailesh Mishra C. Endres Thorsten Holz Mario Fritz SILM 203 504 0 23 Feb 2023
Language Model Crossover: Variation through Few-Shot Prompting Elliot Meyerson M. Nelson Herbie Bradley Adam Gaier Arash Moradi Amy K. Hoover Joel Lehman VLM 145 93 0 23 Feb 2023
Guiding Large Language Models via Directional Stimulus Prompting Zekun Li Baolin Peng Pengcheng He Michel Galley Jianfeng Gao Xi Yan LLMAG LRM LM&Ro 139 101 0 22 Feb 2023
Machine Love Joel Lehman 129 5 0 18 Feb 2023
Auditing large language models: a three-layered approach Jakob Mokander Jonas Schuett Hannah Rose Kirk Luciano Floridi AILaw MLAU 169 216 0 16 Feb 2023
Tuning computer vision models with task rewards André Susano Pinto Alexander Kolesnikov Yuge Shi Lucas Beyer Xiaohua Zhai VLM 85 41 0 16 Feb 2023
Aligning Language Models with Preferences through f-divergence Minimization Dongyoung Go Tomasz Korbak Germán Kruszewski Jos Rozen Nahyeon Ryu Marc Dymetman 111 76 0 16 Feb 2023
Augmented Language Models: a Survey Grégoire Mialon Roberto Dessì Maria Lomeli Christoforos Nalmpantis Ramakanth Pasunuru ... Jane Dwivedi-Yu Asli Celikyilmaz Edouard Grave Yann LeCun Thomas Scialom LRM KELM 105 394 0 15 Feb 2023
The Capacity for Moral Self-Correction in Large Language Models Deep Ganguli Amanda Askell Nicholas Schiefer Thomas I. Liao Kamil.e Lukovsiut.e ... Tom B. Brown C. Olah Jack Clark Sam Bowman Jared Kaplan LRM ReLM 92 171 0 15 Feb 2023
Synthesizing Human Gaze Feedback for Improved NLP Performance Varun Khurana Yaman Kumar Singla Nora Hollenstein R. Kumar Balaji Krishnamurthy 72 17 0 11 Feb 2023
The Wisdom of Hindsight Makes Language Models Better Instruction Followers Tianjun Zhang Fangchen Liu Justin Wong Pieter Abbeel Joseph E. Gonzalez 103 47 0 10 Feb 2023
Chain of Hindsight Aligns Language Models with Feedback Hao Liu Carmelo Sferrazza Pieter Abbeel ALM 159 124 0 06 Feb 2023
Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning Thomas Carta Clément Romac Thomas Wolf Sylvain Lamprier Olivier Sigaud Pierre-Yves Oudeyer LM&Ro LLMAG 121 194 0 06 Feb 2023
Benchmarking Large Language Models for News Summarization Tianyi Zhang Faisal Ladhak Esin Durmus Percy Liang Kathleen McKeown Tatsunori B. Hashimoto ELM 137 535 0 31 Jan 2023
Direct Preference-based Policy Optimization without Reward Modeling Gaon An Junhyeok Lee Xingdong Zuo Norio Kosaka KyungHyun Kim Hyun Oh Song OffRL 82 29 0 30 Jan 2023
Truth Machines: Synthesizing Veracity in AI Language Models Luke Munn Liam Magee Vanicka Arora SyDa HILM 48 32 0 28 Jan 2023
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning Xinyi Wang Wanrong Zhu Michael Stephen Saxon Mark Steyvers William Yang Wang BDL 188 116 0 27 Jan 2023
Reinforcement Learning from Diverse Human Preferences Wanqi Xue Bo An Shuicheng Yan Zhongwen Xu 81 26 0 27 Jan 2023
Theoretical Analysis of Offline Imitation With Supplementary Dataset Ziniu Li Tian Xu Y. Yu Zhixun Luo OffRL 64 2 0 27 Jan 2023
Principled Reinforcement Learning with Human Feedback from Pairwise or $K$ -wise Comparisons Banghua Zhu Jiantao Jiao Michael I. Jordan OffRL 165 210 0 26 Jan 2023
Large Language Models as Fiduciaries: A Case Study Toward Robustly Communicating With Artificial Intelligence Through Legal Standards John J. Nay ELM AILaw 60 16 0 24 Jan 2023
How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection Biyang Guo Xin Zhang Ziyuan Wang Minqi Jiang Jinran Nie Yuxuan Ding Jianwei Yue Yupeng Wu DeLMO ELM 135 622 0 18 Jan 2023
On The Fragility of Learned Reward Functions Lev McKinney Yawen Duan David M. Krueger Adam Gleave 93 20 0 09 Jan 2023
Iterated Decomposition: Improving Science Q&A by Supervising Reasoning Processes Justin Reppert Ben Rachbach Charlie George Luke Stebbing Ju-Seung Byun Maggie Appleton Andreas Stuhlmuller ReLM LRM 143 17 0 04 Jan 2023