v1v2v3 (latest)

Learning to summarize from human feedback

2 September 2020

Papers citing "Learning to summarize from human feedback"

50 / 1,548 papers shown

Title
Governance Challenges in Reinforcement Learning from Human Feedback: Evaluator Rationality and Reinforcement Stability Dana Alsagheer Abdulrahman Kamal Mohammad Kamal W. Shi ALM 47 0 0 17 Apr 2025
Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo João Loula Benjamin LeBrun Li Du Ben Lipkin Clemente Pasti ... Ryan Cotterel Vikash K. Mansinghka Alexander K. Lew Tim Vieira Timothy J. O'Donnell 171 8 0 17 Apr 2025
Science-T2I: Addressing Scientific Illusions in Image Synthesis Jialuo Li Wenhao Chai Xingyu Fu Haiyang Xu Saining Xie MedIm 85 1 0 17 Apr 2025
Evaluating the Diversity and Quality of LLM Generated Content Alexander Shypula Shuo Li Botong Zhang Vishakh Padmakumar Kayo Yin Osbert Bastani 103 5 0 16 Apr 2025
Better Estimation of the KL Divergence Between Language Models Afra Amini Tim Vieira Ryan Cotterell 127 0 0 14 Apr 2025
Deep Reasoning Translation via Reinforcement Learning Jiaan Wang Fandong Meng Jie Zhou OffRL LRM 126 1 0 14 Apr 2025
Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data Shuai Zhao Linchao Zhu Yi Yang 100 3 0 14 Apr 2025
A Comprehensive Survey of Reward Models: Taxonomy, Applications, Challenges, and Future Jialun Zhong Wei Shen Yanzeng Li Songyang Gao Hua Lu Yicheng Chen Yang Zhang Wei Zhou Jinjie Gu Lei Zou LRM 136 11 0 12 Apr 2025
Supervised Optimism Correction: Be Confident When LLMs Are Sure Jing Zhang Rushuai Yang Shunyu Liu Ting-En Lin Fei Huang Yi Chen Yongqian Li Dacheng Tao OffRL 91 0 0 10 Apr 2025
Decoupling Contrastive Decoding: Robust Hallucination Mitigation in Multimodal Large Language Models Wei Chen Xin Yan Bin Wen Fan Yang Yan Li Di Zhang Long Chen MLLM 191 0 0 09 Apr 2025
Bridging the Gap Between Preference Alignment and Machine Unlearning Xiaohua Feng Yuyuan Li Huwei Ji Jiaming Zhang Lulu Zhang Tianyu Du Chaochao Chen MU 95 0 0 09 Apr 2025
FactGuard: Leveraging Multi-Agent Systems to Generate Answerable and Unanswerable Questions for Enhanced Long-Context LLM Extraction Qian Zhang Fang Li Jie Wang Lingfeng Qiao Yifei Yu Di Yin Xingwu Sun RALM 131 0 0 08 Apr 2025
Adversarial Training of Reward Models Alexander Bukharin Haifeng Qian Shengyang Sun Adithya Renduchintala Soumye Singhal Ziyi Wang Oleksii Kuchaiev Olivier Delalleau T. Zhao AAML 174 2 0 08 Apr 2025
Information-Theoretic Reward Decomposition for Generalizable RLHF Liyuan Mao Haoran Xu Amy Zhang Weinan Zhang Chenjia Bai 121 0 0 08 Apr 2025
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling Benjamin Lipkin Benjamin LeBrun Jacob Hoover Vigly João Loula David R. MacIver ... Ryan Cotterell Vikash K. Mansinghka Timothy J. O'Donnell Alexander K. Lew Tim Vieira 94 0 0 07 Apr 2025
Algorithm Discovery With LLMs: Evolutionary Search Meets Reinforcement Learning Anja Surina Amin Mansouri Lars Quaedvlieg Amal Seddas Maryna Viazovska Emmanuel Abbe Çağlar Gülçehre 123 3 0 07 Apr 2025
Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval Kidist Amde Mekonnen Yubao Tang Maarten de Rijke 119 0 0 07 Apr 2025
Truthful or Fabricated? Using Causal Attribution to Mitigate Reward Hacking in Explanations Pedro Ferreira Wilker Aziz Ivan Titov LRM 103 0 0 07 Apr 2025
A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models Carlos Peláez-González Andrés Herrera-Poyatos Cristina Zuheros David Herrera-Poyatos Virilo Tejedor F. Herrera AAML 85 0 0 07 Apr 2025
FISH-Tuning: Enhancing PEFT Methods with Fisher Information Kang Xue Ming Dong Xinhui Tu Tingting He 219 0 0 05 Apr 2025
AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset Bingxiang He Wenbin Zhang Jiaxi Song Cheng Qian Z. Fu ... Hui Xue Ganqu Cui Wanxiang Che Zhiyuan Liu Maosong Sun 104 0 0 04 Apr 2025
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models Gonçalo Faria Noah A. Smith 82 4 0 04 Apr 2025
On the Connection Between Diffusion Models and Molecular Dynamics Liam Harcombe Timothy T. Duignan DiffM 112 0 0 04 Apr 2025
Do LLM Evaluators Prefer Themselves for a Reason? Wei-Lin Chen Zhepei Wei Xinyu Zhu Shi Feng Yu Meng ELM LRM 93 3 0 04 Apr 2025
Prompt Optimization with Logged Bandit Data Haruka Kiyohara Daniel Yiming Cao Yuta Saito Thorsten Joachims 234 0 0 03 Apr 2025
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning Kai Ye Hongyi Zhou Jin Zhu Francesco Quinzan C. Shi 97 4 0 03 Apr 2025
The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context Nikhil Verma Manasa Bharadwaj 83 2 0 03 Apr 2025
Inference-Time Scaling for Generalist Reward Modeling Zijun Liu P. Wang Ran Xu Shirong Ma Chong Ruan Ziwei Sun Yang Liu Y. Wu OffRL LRM 217 54 0 03 Apr 2025
Urban Computing in the Era of Large Language Models Zhonghang Li Lianghao Xia Xubin Ren J. Tang Tianyi Chen Yong-mei Xu Chenyu Huang 231 0 0 02 Apr 2025
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows Souradip Chakraborty Mohammadreza Pourreza Ruoxi Sun Yiwen Song Nino Scherrer ... Furong Huang Amrit Singh Bedi Ahmad Beirami Hamid Palangi Tomas Pfister 135 2 0 02 Apr 2025
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models S. Jung Donghun Lee Shinbok Lee Gaeun Seo Daniel Lee Byeongil Ko Junrae Cho Kihyun Kim EungGyun Kim M. Shin 83 0 0 02 Apr 2025
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute Jianhao Chen Zishuo Xun Bocheng Zhou Han Qi Qiaosheng Zhang ... Wei Hu Yuzhong Qu W. Ouyang Wanli Ouyang Shuyue Hu 206 2 0 01 Apr 2025
Redefining Evaluation Standards: A Unified Framework for Evaluating the Korean Capabilities of Language Models Hanwool Albert Lee Dasol Choi Dasol Choi Sangwon Baek Seunghyeok Hong Guijin Son Inseon Hwang Naeun Lee Seunghyeok Hong VLM 115 0 0 29 Mar 2025
The Mind in the Machine: A Survey of Incorporating Psychological Theories in LLMs Zizhou Liu Ziwei Gong Lin Ai Zheng Hui Run Chen Colin Wayne Leach Michelle R. Greene Julia Hirschberg LLMAG 497 0 0 28 Mar 2025
Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF Syrine Belakaria Joshua Kazdan Charles Marx Chris Cundy Willie Neiswanger Sanmi Koyejo Barbara Engelhardt Stefano Ermon 115 0 0 28 Mar 2025
Learning to Reason for Long-Form Story Generation Alexander Gurung Mirella Lapata ReLM OffRL LRM 129 3 0 28 Mar 2025
3DGen-Bench: Comprehensive Benchmark Suite for 3D Generative Models Yize Zhang Mengchen Zhang Tong Wu Tengfei Wang Gordon Wetzstein Dahua Lin Ziwei Liu ELM 202 1 0 27 Mar 2025
Controlling Large Language Model with Latent Actions Chengxing Jia Ziniu Li Pengyuan Wang Yi-Chen Li Zhenyu Hou Yuxiao Dong Y. Yu 124 1 0 27 Mar 2025
Understanding R1-Zero-Like Training: A Critical Perspective Zichen Liu Changyu Chen Wenjun Li Penghui Qi Tianyu Pang Chao Du Wee Sun Lee Min Lin OffRL LRM 242 172 0 26 Mar 2025
Reasoning Beyond Limits: Advances and Open Problems for LLMs M. Ferrag Norbert Tihanyi Merouane Debbah ELM OffRL LRM AI4CE 442 4 0 26 Mar 2025
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy Yinan Sun Xiongkuo Min Zicheng Zhang Yixuan Gao Yuhang Cao Guangtao Zhai VLM 96 0 0 26 Mar 2025
Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators Seungone Kim Ian Wu Jinu Lee Xiang Yue Seongyun Lee ... Kiril Gashteovski Carolin (Haas) Lawrence Julia Hockenmaier Graham Neubig Sean Welleck LRM 105 5 0 25 Mar 2025
Linguistic Blind Spots of Large Language Models Jiali Cheng Hadi Amiri 101 1 0 25 Mar 2025
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing Jaihoon Kim Taehoon Yoon Jisung Hwang Minhyuk Sung DiffM 179 3 0 25 Mar 2025
Latent Embedding Adaptation for Human Preference Alignment in Diffusion Planners Wen Zheng Terence Ng Jianda Chen Yuan Xu Tianwei Zhang 118 0 0 24 Mar 2025
Understanding the Effects of RLHF on the Quality and Detectability of LLM-Generated Texts Beining Xu Arkaitz Zubiaga DeLMO 119 0 0 23 Mar 2025
Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes Sharan Maiya Yinhong Liu Ramit Debnath Anna Korhonen 79 0 0 22 Mar 2025
A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications Jian Guan Jian Wu Jia-Nan Li Chuanqi Cheng Wei Wu LM&MA 183 3 0 21 Mar 2025
MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration David Wan Justin Chih-Yao Chen Elias Stengel-Eskin Joey Tianyi Zhou LLMAG LRM 83 1 0 19 Mar 2025
Aligning Crowd-sourced Human Feedback for Reinforcement Learning on Code Generation by Large Language Models M. Wong C. Tan ALM 130 6 0 19 Mar 2025