v1v2v3 (latest)

Learning to summarize from human feedback

2 September 2020

Papers citing "Learning to summarize from human feedback"

50 / 1,548 papers shown

Title
Evolutionary Contrastive Distillation for Language Model Alignment Julian Katz-Samuels Zheng Li Hyokun Yun Priyanka Nigam Yi Xu Vaclav Petricek Bing Yin Trishul Chilimbi ALM SyDa 31 0 0 10 Oct 2024
TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees Weibin Liao Xu Chu Yasha Wang LRM 145 8 0 10 Oct 2024
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment Yuancheng Xu Udari Madhushani Sehwag Alec Koppel Sicheng Zhu Bang An Furong Huang Sumitra Ganesh 184 14 0 10 Oct 2024
COS-DPO: Conditioned One-Shot Multi-Objective Fine-Tuning Framework Yinuo Ren Tesi Xiao Michael Shavlovsky Lexing Ying Holakou Rahmanian 79 0 0 10 Oct 2024
MoDEM: Mixture of Domain Expert Models Toby Simonds Kemal Kurniawan Jey Han Lau MoE 74 2 0 09 Oct 2024
Uncovering Factor Level Preferences to Improve Human-Model Alignment Juhyun Oh Eunsu Kim Jiseon Kim Wenda Xu Inha Cha William Yang Wang Alice Oh 77 1 0 09 Oct 2024
Calibrating Verbalized Probabilities for Large Language Models Cheng Wang Gyuri Szarvas Georges Balazs Pavel Danchenko P. Ernst 78 0 0 09 Oct 2024
The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models Yanjun Chen Dawei Zhu Yirong Sun Xinghao Chen Wei Zhang Xiaoyu Shen ALM 79 4 0 09 Oct 2024
PREDICT: Preference Reasoning by Evaluating Decomposed preferences Inferred from Candidate Trajectories Stephane Aroca-Ouellette Natalie Mackraz B. Theobald Katherine Metcalf 60 0 0 08 Oct 2024
RL, but don't do anything I wouldn't do Michael K. Cohen Marcus Hutter Yoshua Bengio Stuart J. Russell OffRL 79 2 0 08 Oct 2024
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design Jiachen Li Qian Long Jian Zheng Xiaofeng Gao Robinson Piramuthu Wenhu Chen William Yang Wang VGen 130 26 0 08 Oct 2024
On the Modeling Capabilities of Large Language Models for Sequential Decision Making Martin Klissarov Devon Hjelm Alexander Toshev Bogdan Mazoure LM&Ro ELM OffRL LRM 104 2 0 08 Oct 2024
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths Yew Ken Chia Guizhen Chen Weiwen Xu Luu Anh Tuan Soujanya Poria Lidong Bing LRM 62 1 0 07 Oct 2024
LRHP: Learning Representations for Human Preferences via Preference Pairs Chenglong Wang Yang Gan Yifu Huo Yongyu Mu Qiaozhi He Murun Yang Tong Xiao Chunliang Zhang Tongran Liu Jingbo Zhu AI4TS 120 1 0 06 Oct 2024
An evaluation of LLM code generation capabilities through graded exercises Álvaro Barbero Jiménez ELM 74 1 0 06 Oct 2024
MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans? Guanzhen Li Yuxi Xie Min-Yen Kan VLM 397 2 0 06 Oct 2024
OD-Stega: LLM-Based Near-Imperceptible Steganography via Optimized Distributions Yu-Shin Huang Peter Just Krishna Narayanan Chao Tian 134 7 0 06 Oct 2024
Reward Learning From Preference With Ties Jinsong Liu Dongdong Ge Ruihao Zhu 65 3 0 05 Oct 2024
RainbowPO: A Unified Framework for Combining Improvements in Preference Optimization Hanyang Zhao Genta Indra Winata Anirban Das Shi-Xiong Zhang D. Yao Wenpin Tang Sambit Sahu 109 9 0 05 Oct 2024
Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback Fatemeh Pesaran Zadeh Juyeon Kim Jin-Hwa Kim Gunhee Kim ALM 136 5 0 05 Oct 2024
Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models Yufang Liu Tao Ji Changzhi Sun Yuanbin Wu Aimin Zhou VLM MLLM 92 3 0 04 Oct 2024
Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback Kyuyoung Kim Ah Jeong Seo Hao Liu Jinwoo Shin Kimin Lee 54 5 0 04 Oct 2024
Frame-Voyager: Learning to Query Frames for Video Large Language Models Sicheng Yu Chengkai Jin Huanyu Wang Zhenghao Chen Sheng Jin ... Zhenbang Sun Bingni Zhang Jiawei Wu Hao Zhang Qianru Sun 177 9 0 04 Oct 2024
Guided Stream of Search: Learning to Better Search with Language Models via Optimal Path Guidance Seungyong Moon Bumsoo Park Hyun Oh Song RALM AIFin 78 2 0 03 Oct 2024
Coal Mining Question Answering with LLMs Antonio Carlos Rivera Anthony Moore Steven Robinson 81 1 0 03 Oct 2024
Unlocking Structured Thinking in Language Models with Cognitive Prompting Oliver Kramer Jill Baumann ReLM LRM 77 5 0 03 Oct 2024
Cognitive Biases in Large Language Models for News Recommendation Yougang Lyu Xiaoyu Zhang Zhaochun Ren Maarten de Rijke 104 4 0 03 Oct 2024
Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation Rohin Manvi Anikait Singh Stefano Ermon SyDa 83 27 0 03 Oct 2024
Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions Angana Borah Rada Mihalcea 108 15 0 03 Oct 2024
Reward-RAG: Enhancing RAG with Reward Driven Supervision Thang Nguyen Peter Chin Yu-Wing Tai RALM 132 5 0 03 Oct 2024
Strong Preferences Affect the Robustness of Preference Models and Value Alignment Ziwei Xu Mohan Kankanhalli AAML 34 0 0 03 Oct 2024
Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models Yinhong Liu Zhijiang Guo Tianya Liang Ehsan Shareghi Ivan Vulić Nigel Collier 467 0 0 03 Oct 2024
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions Yekun Chai Haoran Sun Huang Fang Shuohuan Wang Yu Sun Hua Wu 485 4 0 03 Oct 2024
Better Instruction-Following Through Minimum Bayes Risk Ian Wu Patrick Fernandes Amanda Bertsch Seungone Kim Sina Pakazad Graham Neubig 143 11 0 03 Oct 2024
CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning Huimu Yu Xing Wu Weidong Yin Debing Zhang Songlin Hu LRM 88 5 0 03 Oct 2024
Investigating on RLHF methodology Alexey Kutalev Sergei Markoff 43 0 0 02 Oct 2024
Evaluating Robustness of Reward Models for Mathematical Reasoning Sunghwan Kim Dongjin Kang Taeyoon Kwon Hyungjoo Chae Jungsoo Won Dongha Lee Jinyoung Yeo 78 7 0 02 Oct 2024
Integrative Decoding: Improve Factuality via Implicit Self-consistency Yi Cheng Xiao Liang Yeyun Gong Wen Xiao Song Wang ... Wenjie Li Jian Jiao Qi Chen Peng Cheng Wayne Xiong HILM 202 3 0 02 Oct 2024
Moral Alignment for LLM Agents Elizaveta Tennant Stephen Hailes Mirco Musolesi 145 8 0 02 Oct 2024
Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance Meni Brief Oded Ovadia Gil Shenderovitz Noga Ben Yoash Rachel Lemberg Eitam Sheetrit 87 4 0 01 Oct 2024
FlipGuard: Defending Preference Alignment against Update Regression with Constrained Optimization Mingye Zhu Yi Liu Quan Wang Junbo Guo Zhendong Mao 65 1 0 01 Oct 2024
Beyond Scalar Reward Model: Learning Generative Judge from Preference Data Ziyi Ye Xiangsheng Li Qiuchi Li Qingyao Ai Yujia Zhou Wei Shen Dong Yan Yiqun Liu 123 17 0 01 Oct 2024
A Taxonomy of Loss Functions for Stochastic Optimal Control Carles Domingo-Enrich 75 4 0 01 Oct 2024
Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown Xingzhou Lou Dong Yan Wei Shen Yuzi Yan Jian Xie Junge Zhang 220 28 0 01 Oct 2024
Are Large Language Models In-Context Personalized Summarizers? Get an iCOPERNICUS Test Done! Divya Patel Pathik Patel Ankush Chander Sourish Dasgupta Tanmoy Chakraborty 75 2 0 30 Sep 2024
The Perfect Blend: Redefining RLHF with Mixture of Judges Tengyu Xu Eryk Helenowski Karthik Abinav Sankararaman Di Jin Kaiyan Peng ... Gabriel Cohen Yuandong Tian Hao Ma Sinong Wang Han Fang 142 14 0 30 Sep 2024
A Critical Look at Meta-evaluating Summarisation Evaluation Metrics Xiang Dai Sarvnaz Karimi Biaoyan Fang 71 0 0 29 Sep 2024
LLMs4Synthesis: Leveraging Large Language Models for Scientific Synthesis Hamed Babaei Giglou Jennifer D'Souza Sören Auer 80 5 0 27 Sep 2024
Model-based Preference Optimization in Abstractive Summarization without Human Feedback Jaepill Choi Kyubyung Chae Jiwoo Song Yohan Jo Taesup Kim 70 2 0 27 Sep 2024
VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback Guoxi Zhang Jiuding Duan 66 1 0 27 Sep 2024