Meta-Rewarding Language Models: Self-Improving Alignment with
LLM-as-a-Meta-Judge

Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

28 July 2024

O. Yu. Golovneva

Jason Weston

Sainbayar Sukhbaatar

Papers citing "Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge"

11 / 61 papers shown

Title
Towards a Unified View of Preference Learning for Large Language Models: A Survey Bofei Gao Feifan Song Yibo Miao Zefan Cai Zhengyuan Yang ... Houfeng Wang Zhifang Sui Peiyi Wang Baobao Chang Baobao Chang 53 11 0 04 Sep 2024
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling Hritik Bansal Arian Hosseini Rishabh Agarwal Vinh Q. Tran Mehran Kazemi SyDa OffRL LRM 42 37 0 29 Aug 2024
Iterative Graph Alignment Fangyuan Yu H. S. Arora Matt Johnson 36 2 0 29 Aug 2024
Towards Reliable Medical Question Answering: Techniques and Challenges in Mitigating Hallucinations in Language Models Duy Khoa Pham Bao Quoc Vo LM&MA HILM 31 3 0 25 Aug 2024
I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm Yiming Liang Ge Zhang Xingwei Qu Tianyu Zheng Jiawei Guo ... Jiaheng Liu Chenghua Lin Lei Ma Wenhao Huang Jiajun Zhang ALM 51 5 0 15 Aug 2024
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement Xiyao Wang Jiuhai Chen Zhaoyang Wang Yuhang Zhou Yiyang Zhou ... Dinesh Manocha Tom Goldstein Parminder Bhatia Furong Huang Cao Xiao 67 33 0 24 May 2024
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 239 298 0 18 Jan 2024
Towards Understanding Sycophancy in Language Models Mrinank Sharma Meg Tong Tomasz Korbak David Duvenaud Amanda Askell ... Oliver Rausch Nicholas Schiefer Da Yan Miranda Zhang Ethan Perez 213 192 0 20 Oct 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 330 11,953 0 04 Mar 2022
Multitask Prompted Training Enables Zero-Shot Task Generalization Victor Sanh Albert Webson Colin Raffel Stephen H. Bach Lintang Sutawika ... T. Bers Stella Biderman Leo Gao Thomas Wolf Alexander M. Rush LRM 213 1,657 0 15 Oct 2021
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 292 1,595 0 18 Sep 2019