v1v2 (latest)

Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

4 May 2023

Chuang Gan

Papers citing "Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision"

32 / 32 papers shown

Title
Is Free Self-Alignment Possible? Dyah Adila Changho Shin Yijing Zhang Frederic Sala MoMe 186 2 0 24 Feb 2025
The Best Instruction-Tuning Data are Those That Fit Dylan Zhang Qirun Dai Hao Peng ALM 209 7 0 06 Feb 2025
Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents Junkai Li Yunghwei Lai Weitao Li Jingyi Ren Meng Zhang ... Siyu Wang Ziwei Sun Yanzhe Zhang Weizhi Ma Yang Liu LLMAG LM&MA LM&Ro MedIm 169 122 0 20 Jan 2025
Aligning Instruction Tuning with Pre-training Yiming Liang Tianyu Zheng Xinrun Du Ge Zhang Qingbin Liu ... Zhaoxiang Zhang Wenhao Huang Jiajun Zhang Xiang Yue Jiajun Zhang 170 4 0 16 Jan 2025
Text-Diffusion Red-Teaming of Large Language Models: Unveiling Harmful Behaviors with Proximity Constraints Jonathan Nöther Adish Singla Goran Radanović AAML 154 0 0 14 Jan 2025
Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset Khaoula Chehbouni Jonathan Colaço-Carr Yash More Jackie CK Cheung G. Farnadi 171 1 0 12 Nov 2024
Stronger Models are NOT Stronger Teachers for Instruction Tuning Zhangchen Xu Fengqing Jiang Luyao Niu Bill Yuchen Lin Radha Poovendran ALM 119 7 0 11 Nov 2024
Mitigating Forgetting in LLM Supervised Fine-Tuning and Preference Learning H. Fernando Han Shen Parikshit Ram Yi Zhou Horst Samulowitz Nathalie Baracaldo Tianyi Chen CLL 162 4 0 20 Oct 2024
Self-Data Distillation for Recovering Quality in Pruned Large Language Models Vithursan Thangarasa Ganesh Venkatesh Mike Lasby Nish Sinnadurai Sean Lie SyDa 157 2 0 13 Oct 2024
CursorCore: Assist Programming through Aligning Anything Hao Jiang Qi Liu Rui Li Shengyu Ye Shijin Wang 124 1 0 09 Oct 2024
ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement Xiangyu Peng Congying Xia Xinyi Yang Caiming Xiong Chien-Sheng Wu Chen Xing LRM 120 8 0 03 Oct 2024
Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown Xingzhou Lou Dong Yan Wei Shen Yuzi Yan Jian Xie Junge Zhang 195 28 0 01 Oct 2024
Threshold Filtering Packing for Supervised Fine-Tuning: Training Related Samples within Packs Jiancheng Dong Lei Jiang Wei Jin Lu Cheng 103 1 0 18 Aug 2024
Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation Jiaming Shen Ran Xu Yennie Jun Zhen Qin Tianqi Liu Carl Yang Yi Liang Simon Baumgartner Michael Bendersky SyDa 136 5 0 22 Jul 2024
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 154 39 0 24 Jun 2024
Learning Task Decomposition to Assist Humans in Competitive Programming Jiaxin Wen Ruiqi Zhong Pei Ke Zhihong Shao Hongning Wang Minlie Huang ReLM 119 9 0 07 Jun 2024
Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model Qi Gou Cam-Tu Nguyen 113 13 0 28 Mar 2024
Chain-of-Instructions: Compositional Instruction Tuning on Large Language Models S. Hayati Taehee Jung Tristan Bodding-Long Sudipta Kar A. Sethy Joo-Kyung Kim Dongyeop Kang ALM LRM 106 9 0 18 Feb 2024
Large Language Models: A Survey Shervin Minaee Tomas Mikolov Narjes Nikzad M. Asgari-Chenaghlu R. Socher Xavier Amatriain Jianfeng Gao ALM LM&MA ELM 212 419 0 09 Feb 2024
On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning Omar Shaikh Hongxin Zhang William B. Held Michael S. Bernstein Diyi Yang ReLM LRM 149 200 0 15 Dec 2022
Constitutional AI: Harmlessness from AI Feedback Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell John Kernion ... Dario Amodei Nicholas Joseph Sam McCandlish Tom B. Brown Jared Kaplan SyDa MoMe 214 1,646 0 15 Dec 2022
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model BigScience Workshop : Teven Le Scao Angela Fan Christopher Akiki ... Zhongli Xie Zifan Ye M. Bras Younes Belkada Thomas Wolf VLM 417 2,393 0 09 Nov 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 450 2,982 0 06 Oct 2022
PaLM: Scaling Language Modeling with Pathways Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma Gaurav Mishra ... Kathy Meier-Hellstern Douglas Eck J. Dean Slav Petrov Noah Fiedel PILM LRM 537 6,301 0 05 Apr 2022
Red Teaming Language Models with Language Models Ethan Perez Saffron Huang Francis Song Trevor Cai Roman Ring John Aslanides Amelia Glaese Nat McAleese G. Irving AAML 185 668 0 07 Feb 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 856 9,714 0 28 Jan 2022
LaMDA: Language Models for Dialog Applications R. Thoppilan Daniel De Freitas Jamie Hall Noam M. Shazeer Apoorv Kulshreshtha ... Blaise Aguera-Arcas Claire Cui M. Croak Ed H. Chi Quoc Le ALM 146 1,602 0 20 Jan 2022
A General Language Assistant as a Laboratory for Alignment Amanda Askell Yuntao Bai Anna Chen Dawn Drain Deep Ganguli ... Tom B. Brown Jack Clark Sam McCandlish C. Olah Jared Kaplan ALM 122 790 0 01 Dec 2021
Show Your Work: Scratchpads for Intermediate Computation with Language Models Maxwell Nye Anders Andreassen Guy Gur-Ari Henryk Michalewski Jacob Austin ... Aitor Lewkowycz Maarten Bosma D. Luan Charles Sutton Augustus Odena ReLM LRM 183 756 0 30 Nov 2021
Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets Irene Solaiman Christy Dennison 112 226 0 18 Jun 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 504 10,526 0 17 Jun 2021
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 218 3,377 0 12 Jun 2017