v1v2v3 (latest)

Learning to summarize from human feedback

2 September 2020

Papers citing "Learning to summarize from human feedback"

50 / 1,548 papers shown

Title
Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy Owen Henkel Hannah Horne-Robinson Maria Dyshel Nabil Ch Baptiste Moreau-Pernet Ralph Abood 77 0 0 26 Sep 2024
Inference-Time Language Model Alignment via Integrated Value Guidance Zhixuan Liu Zhanhui Zhou Yuanfu Wang Chao Yang Yu Qiao 65 10 0 26 Sep 2024
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness Jian Li Haojing Huang Yujia Zhang Pengfei Xu Xi Chen Rui Song Lida Shi Jingwen Wang Hao Xu 50 0 0 26 Sep 2024
Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization Ruijie Xu Zhihan Liu Yongfei Liu Shipeng Yan Zhaoran Wang Zhi-Li Zhang Xuming He ALM 88 1 0 26 Sep 2024
Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards Heejin Do Sangwon Ryu Gary Geunbae Lee 80 2 0 26 Sep 2024
On Extending Direct Preference Optimization to Accommodate Ties Jinghong Chen Guangyu Yang Weizhe Lin Jingbiao Mei Bill Byrne 78 3 0 25 Sep 2024
Post-hoc Reward Calibration: A Case Study on Length Bias Zeyu Huang Zihan Qiu Zili Wang Edoardo M. Ponti Ivan Titov 94 6 0 25 Sep 2024
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference Qining Zhang Lei Ying OffRL 157 4 0 25 Sep 2024
CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data Qian-Wen Zhang Haochen Wang Fang Li Siyu An Lingfeng Qiao Liangcai Gao Di Yin Xing Sun ELM AI4Ed 69 0 0 24 Sep 2024
Orthogonal Finetuning for Direct Preference Optimization Chenxu Yang Ruipeng Jia Naibin Gu Zheng Lin Siyuan Chen Chao Pang Weichong Yin Yu Sun Hua Wu Weiping Wang 88 0 0 23 Sep 2024
Phantom of Latent for Large Language and Vision Models Byung-Kwan Lee Sangyun Chung Chae Won Kim Beomchan Park Yong Man Ro VLM LRM 100 7 0 23 Sep 2024
Speechworthy Instruction-tuned Language Models Hyundong Justin Cho Nicolaas Jedema Leonardo F. R. Ribeiro Karishma Sharma Pedro Szekely Alessandro Moschitti Ruben Janssen Jonathan May ALM 87 1 0 23 Sep 2024
MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models Mohammad Shahab Sepehri Zalan Fabian Maryam Soltanolkotabi Mahdi Soltanolkotabi MedIm 152 6 0 23 Sep 2024
Multi-modal Generative AI: Multi-modal LLMs, Diffusions and the Unification X. Wang Yuwei Zhou Bin Huang Hong Chen Wenwu Zhu DiffM 171 9 0 23 Sep 2024
Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning Daniele Rege Cambrin Giuseppe Gallipoli Irene Benedetto Luca Cagliero Paolo Garza 62 0 0 20 Sep 2024
RRM: Robust Reward Model Training Mitigates Reward Hacking Tianqi Liu Wei Xiong Jie Jessie Ren Lichang Chen Junru Wu ... Yuan Liu Bilal Piot Abe Ittycheriah Aviral Kumar Mohammad Saleh AAML 97 23 0 20 Sep 2024
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions Robert D Morabito Sangmitra Madhusudan Tyler McDonald Ali Emami 60 2 0 20 Sep 2024
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration Jiahui Gao Renjie Pi Tianyang Han Han Wu Lanqing Hong Lingpeng Kong Xin Jiang Zhenguo Li 136 8 0 17 Sep 2024
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization Jianing Wang Yang Zhou Xiaocheng Zhang Mengjiao Bao Peng Yan 73 2 0 17 Sep 2024
REAL: Response Embedding-based Alignment for LLMs Honggen Zhang Xufeng Zhao Igor Molybog June Zhang 93 2 0 17 Sep 2024
Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs Yifan Wang David Stevens Pranay Shah Wenwen Jiang Miao Liu ... Boying Gong Daniel Lee Jiabo Hu Ning Zhang Bob Kamma 103 1 0 16 Sep 2024
Quantile Regression for Distributional Reward Models in RLHF Nicolai Dorka 104 26 0 16 Sep 2024
Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison Judy Hanwen Shen Archit Sharma Jun Qin 70 5 0 15 Sep 2024
Thesis proposal: Are We Losing Textual Diversity to Natural Language Processing? Josef Jon 73 0 0 15 Sep 2024
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood Ruoyu Wang Jiachen Sun Shaowei Hua Quan Fang 25 2 0 14 Sep 2024
AIPO: Improving Training Objective for Iterative Preference Optimization Yaojie Shen Xinyao Wang Yulei Niu Ying Zhou Lexin Tang Libo Zhang Fan Chen Longyin Wen 89 2 0 13 Sep 2024
Your Weak LLM is Secretly a Strong Teacher for Alignment Leitian Tao Yixuan Li 153 9 0 13 Sep 2024
Alignment of Diffusion Models: Fundamentals, Challenges, and Future Buhua Liu Shitong Shao Bao Li Lichen Bai Zhiqiang Xu Haoyi Xiong James Kwok Sumi Helal Bo Han 122 14 0 11 Sep 2024
On the Relationship between Truth and Political Bias in Language Models S. Fulay William Brannon Shrestha Mohanty Cassandra Overney Elinor Poole-Dayan Deb Roy Jad Kabbara HILM 67 4 0 09 Sep 2024
Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models Sonam Gupta Yatin Nandwani Asaf Yehudai Mayank Mishra Gaurav Pandey Dinesh Raghu Sachindra Joshi LRM 86 2 0 07 Sep 2024
AGR: Age Group fairness Reward for Bias Mitigation in LLMs Shuirong Cao Ruoxi Cheng Zhiqiang Wang 82 5 0 06 Sep 2024
Programming Refusal with Conditional Activation Steering Bruce W. Lee Inkit Padhi Karthikeyan N. Ramamurthy Erik Miehling Pierre Dognin Manish Nagireddy Amit Dhurandhar LLMSV 197 26 0 06 Sep 2024
RAG based Question-Answering for Contextual Response Prediction System Sriram Veturi Saurabh Vaichal Reshma Lal Jagadheesh Nafis Irtiza Tripto Nian Yan RALM 72 8 0 05 Sep 2024
On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization Yong Lin Skyler Seto Maartje ter Hoeve Katherine Metcalf B. Theobald Xuan Wang Yizhe Zhang Chen Huang Tong Zhang 107 15 0 05 Sep 2024
Towards a Unified View of Preference Learning for Large Language Models: A Survey Bofei Gao Feifan Song Yibo Miao Zefan Cai Zhiyong Yang ... Houfeng Wang Zhifang Sui Peiyi Wang Baobao Chang Baobao Chang 163 14 0 04 Sep 2024
More is More: Addition Bias in Large Language Models Luca Santagata Cristiano De Nobili 69 3 0 04 Sep 2024
Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs Zhuo Li Yuhao Du Jinpeng Hu Xiang Wan Anningzhe Gao 73 2 0 03 Sep 2024
Imitating Language via Scalable Inverse Reinforcement Learning Markus Wulfmeier Michael Bloesch Nino Vieillard Arun Ahuja Jorg Bornschein ... Jost Tobias Springenberg Nikola Momchev Olivier Bachem Matthieu Geist Martin Riedmiller 114 10 0 02 Sep 2024
Enhancing Event Reasoning in Large Language Models through Instruction Fine-Tuning with Semantic Causal Graphs Mazal Bethany Emet Bethany Brandon Wherry Cho-Yu Chiang Nishant Vishwamitra Anthony Rios Peyman Najafirad LRM 101 1 0 30 Aug 2024
Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback Jiayi Zhou Yalan Qin Juntao Dai Yaodong Yang 154 8 0 30 Aug 2024
Reinforcement Learning without Human Feedback for Last Mile Fine-Tuning of Large Language Models Alec Solway ALM 95 0 0 29 Aug 2024
RLCP: A Reinforcement Learning-based Copyright Protection Method for Text-to-Image Diffusion Model Zhuan Shi Jing Yan Xiaoli Tang Lingjuan Lyu Boi Faltings 78 1 0 29 Aug 2024
Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models Wenxuan Zhang Philip Torr Mohamed Elhoseiny Adel Bibi 216 15 0 27 Aug 2024
Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates Hui Wei Shenghua He Tian Xia Andy H. Wong Jingyang Lin Mei Han Mei Han ALM ELM 206 32 0 23 Aug 2024
RoVRM: A Robust Visual Reward Model Optimized via Auxiliary Textual Preference Data Chenglong Wang Yang Gan Yifu Huo Yongyu Mu Murun Yang ... Chunliang Zhang Tongran Liu Quan Du Di Yang Jingbo Zhu VLM 180 6 0 22 Aug 2024
Leveraging Unlabeled Data Sharing through Kernel Function Approximation in Offline Reinforcement Learning Yen-Ru Lai Fu-Chieh Chang Pei-Yuan Wu OffRL 148 1 0 22 Aug 2024
Advances in Preference-based Reinforcement Learning: A Review Youssef Abdelkareem Shady Shehata Fakhri Karray OffRL 106 10 0 21 Aug 2024
Critique-out-Loud Reward Models Zachary Ankner Mansheej Paul Brandon Cui Jonathan D. Chang Prithviraj Ammanabrolu ALM LRM 114 38 0 21 Aug 2024
Cause-Aware Empathetic Response Generation via Chain-of-Thought Fine-Tuning Xinhao Chen Chong Yang Man Lan Li Cai Yang Chen Tu Hu Xinlin Zhuang Aimin Zhou LRM 77 3 0 21 Aug 2024
RePair: Automated Program Repair with Process-based Feedback Yuze Zhao Zhenya Huang Yixiao Ma Rui Li Kai Zhang Hao Jiang Qi Liu Linbo Zhu Yu Su KELM 85 9 0 21 Aug 2024