v1v2v3 (latest)

Learning to summarize from human feedback

2 September 2020

Papers citing "Learning to summarize from human feedback"

50 / 1,548 papers shown

Title
Stabilizing RLHF through Advantage Model and Selective Rehearsal Baolin Peng Linfeng Song Ye Tian Lifeng Jin Haitao Mi Dong Yu 95 20 0 18 Sep 2023
Understanding Catastrophic Forgetting in Language Models via Implicit Inference Suhas Kotha Jacob Mitchell Springer Aditi Raghunathan CLL 128 71 0 18 Sep 2023
SYNDICOM: Improving Conversational Commonsense with Error-Injection and Natural Language Feedback Christopher Richardson Anirudh S. Sundar Larry Heck LRM 130 4 0 18 Sep 2023
Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM Bochuan Cao Yu Cao Lu Lin Jinghui Chen AAML 104 152 0 18 Sep 2023
Exploring the impact of low-rank adaptation on the performance, efficiency, and regularization of RLHF Simeng Sun Dhawal Gupta Mohit Iyyer 89 20 0 16 Sep 2023
ICLEF: In-Context Learning with Expert Feedback for Explainable Style Transfer Arkadiy Saakyan Smaranda Muresan 98 4 0 15 Sep 2023
RAIN: Your Language Models Can Align Themselves without Finetuning Yuhui Li Fangyun Wei Jinjing Zhao Chao Zhang Hongyang R. Zhang SILM 104 118 0 13 Sep 2023
Cognitive Mirage: A Review of Hallucinations in Large Language Models Hongbin Ye Tong Liu Aijia Zhang Wei Hua Weiqiang Jia HILM 126 81 0 13 Sep 2023
Statistical Rejection Sampling Improves Preference Optimization Tianqi Liu Yao-Min Zhao Rishabh Joshi Misha Khalman Mohammad Saleh Peter J. Liu Jialu Liu 141 249 0 13 Sep 2023
Circuit Breaking: Removing Model Behaviors with Targeted Ablation Maximilian Li Xander Davies Max Nadeau KELM MU 84 29 0 12 Sep 2023
NExT-GPT: Any-to-Any Multimodal LLM Shengqiong Wu Hao Fei Leigang Qu Wei Ji Tat-Seng Chua MLLM 131 507 0 11 Sep 2023
From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting Griffin Adams Alexander R. Fabbri Faisal Ladhak Eric Lehman Noémie Elhadad 77 57 0 08 Sep 2023
Bootstrapping Adaptive Human-Machine Interfaces with Offline Reinforcement Learning Jensen Gao S. Reddy Glen Berseth Anca Dragan Sergey Levine OffRL 70 0 0 07 Sep 2023
Evaluating ChatGPT as a Recommender System: A Rigorous Approach Dario Di Palma Giovanni Maria Biancofiore Vito Walter Anelli Fedelucio Narducci Tommaso Di Noia E. Sciascio ALM 135 30 0 07 Sep 2023
Everyone Deserves A Reward: Learning Customized Human Preferences Pengyu Cheng Jiawen Xie Ke Bai Yong Dai Nan Du 81 36 0 06 Sep 2023
HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus Zhenpeng Su Xing Wu Wei Zhou Guangyuan Ma Song Hu DeLMO 72 14 0 06 Sep 2023
Neurosymbolic Reinforcement Learning and Planning: A Survey Kamal Acharya Waleed Raza Carlos Dourado Alvaro Velasquez Houbing Song NAI OffRL 100 17 0 02 Sep 2023
Studying the impacts of pre-training using ChatGPT-generated text on downstream tasks Sarthak Anand 65 0 0 02 Sep 2023
Efficient RLHF: Reducing the Memory Usage of PPO Michael Santacroce Yadong Lu Han Yu Yuan-Fang Li Yelong Shen 71 32 0 01 Sep 2023
Reinforcement Learning with Human Feedback for Realistic Traffic Simulation Yulong Cao Boris Ivanovic Chaowei Xiao Marco Pavone 70 15 0 01 Sep 2023
Quantifying Uncertainty in Answers from any Language Model and Enhancing their Trustworthiness Jiuhai Chen Jonas W. Mueller 135 71 0 30 Aug 2023
Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models Hritik Bansal John Dang Aditya Grover ALM 90 21 0 30 Aug 2023
Entropy-based Guidance of Deep Neural Networks for Accelerated Convergence and Improved Performance Mackenzie J. Meni Ryan T. White Michael L. Mayo K. Pilkiewicz BDL 78 6 0 28 Aug 2023
Identifying and Mitigating the Security Risks of Generative AI Clark W. Barrett Bradley L Boyd Ellie Burzstein Nicholas Carlini Brad Chen ... Zulfikar Ramzan Khawaja Shams Basel Alomair Ankur Taly Diyi Yang SILM 136 101 0 28 Aug 2023
Reinforcement Learning for Generative AI: A Survey Yuanjiang Cao Quan.Z Sheng Julian McAuley Lina Yao SyDa 220 13 0 28 Aug 2023
Examining User-Friendly and Open-Sourced Large GPT Models: A Survey on Language, Multimodal, and Scientific GPT Models Kaiyuan Gao Su He Zhenyu He Jiacheng Lin Qizhi Pei Jie Shao Wei Zhang LM&MA SyDa 70 5 0 27 Aug 2023
Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities Maximilian Mozes Xuanli He Bennett Kleinberg Lewis D. Griffin 87 87 0 24 Aug 2023
Prompt-Based Length Controlled Generation with Reinforcement Learning Renlong Jie Xiaojun Meng Lifeng Shang Xin Jiang Qun Liu 89 11 0 23 Aug 2023
From Instructions to Intrinsic Human Values -- A Survey of Alignment Goals for Big Models Jing Yao Xiaoyuan Yi Xiting Wang Jindong Wang Xing Xie ALM 104 44 0 23 Aug 2023
RaLLe: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models Yasuto Hoshi Daisuke Miyashita Youyang Ng Kento Tatsuno Yasuhiro Morioka Osamu Torii J. Deguchi LRM 76 14 0 21 Aug 2023
Tackling Vision Language Tasks Through Learning Inner Monologues Diji Yang Kezhen Chen Jinmeng Rao Xiaoyuan Guo Yawen Zhang Jie Yang Yize Zhang MLLM 99 11 0 19 Aug 2023
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct Haipeng Luo Qingfeng Sun Can Xu Pu Zhao Jian-Guang Lou ... Xiubo Geng Qingwei Lin Shifeng Chen Yansong Tang Dongmei Zhang LRM OSLM 303 468 0 18 Aug 2023
Reinforced Self-Training (ReST) for Language Modeling Çağlar Gülçehre T. Paine S. Srinivasan Ksenia Konyushkova L. Weerts ... Chenjie Gu Wolfgang Macherey Arnaud Doucet Orhan Firat Nando de Freitas OffRL 140 309 0 17 Aug 2023
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning Yun Luo Zhen Yang Fandong Meng Yafu Li Jie Zhou Yue Zhang CLL KELM 217 319 0 17 Aug 2023
GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher Youliang Yuan Wenxiang Jiao Wenxuan Wang Jen-tse Huang Pinjia He Shuming Shi Zhaopeng Tu SILM 127 286 0 12 Aug 2023
Detecting and Preventing Hallucinations in Large Vision Language Models Anisha Gunjal Jihan Yin Erhan Bas MLLM VLM 101 175 0 11 Aug 2023
ZYN: Zero-Shot Reward Models with Yes-No Questions for RLAIF Víctor Gallego SyDa 88 4 0 11 Aug 2023
Proximal Policy Optimization Actual Combat: Manipulating Output Tokenizer Length Miao Fan Chen Hu Shuchang Zhou AAML 49 0 0 10 Aug 2023
"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models Xinyue Shen Zhenpeng Chen Michael Backes Yun Shen Yang Zhang SILM 165 302 0 07 Aug 2023
AgentBench: Evaluating LLMs as Agents Xiao Liu Hao Yu Hanchen Zhang Yifan Xu Xuanyu Lei ... Yu-Chuan Su Huan Sun Minlie Huang Yuxiao Dong Jie Tang ELM LLMAG 161 315 0 07 Aug 2023
EduChat: A Large-Scale Language Model-based Chatbot System for Intelligent Education Yuhao Dan Zhikai Lei Yiyang Gu Yong Li Jia-Peng Yin ... Zeyang Zhou Qin Chen Jie Zhou Liang He Xipeng Qiu ELM 51 91 0 05 Aug 2023
Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation from Text Nandana Mihindukulasooriya Sanju Tiwari Carlos F. Enguix K. Lata 93 62 0 04 Aug 2023
ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation Chenglong Wang Hang Zhou Yimin Hu Yi Huo Bei Li Tongran Liu Tong Xiao Jingbo Zhu 81 9 0 04 Aug 2023
DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales Z. Yao Reza Yazdani Aminabadi Olatunji Ruwase Samyam Rajbhandari Xiaoxia Wu ... Heyang Qin Masahiro Tanaka Shuai Che Shuaiwen Leon Song Yuxiong He ALM OffRL 117 74 0 02 Aug 2023
Domain Adaptation based on Human Feedback for Enhancing Generative Model Denoising Abilities Hyun-Cheol Park S. Kang DiffM 62 0 0 01 Aug 2023
Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges Giorgio Franceschelli Mirco Musolesi AI4CE 143 22 0 31 Jul 2023
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback Viet Dac Lai Chien Van Nguyen Nghia Trung Ngo Thuat Nguyen Franck Dernoncourt Ryan Rossi Thien Huu Nguyen ALM 138 150 0 29 Jul 2023
Language models as master equation solvers Chuanbo Liu Jin Wang 73 0 0 29 Jul 2023
Uncertainty in Natural Language Generation: From Theory to Applications Joris Baan Nico Daheim Evgenia Ilia Dennis Ulmer Haau-Sing Li Raquel Fernández Barbara Plank Rico Sennrich Chrysoula Zerva Wilker Aziz UQLM 161 45 0 28 Jul 2023
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper Xander Davies Claudia Shi T. Gilbert Jérémy Scheurer ... Erdem Biyik Anca Dragan David M. Krueger Dorsa Sadigh Dylan Hadfield-Menell ALM OffRL 162 535 0 27 Jul 2023