Learning to Plan for Language Modeling from Unlabeled Data

Learning to Plan for Language Modeling from Unlabeled Data

31 March 2024

Nathan Cornille

Marie-Francine Moens

Florian Mai

Papers citing "Learning to Plan for Language Modeling from Unlabeled Data"

11 / 11 papers shown

Title
Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes Zhuocheng Gong Jian-Yu Guan Wei Yu Wu Huishuai Zhang Dongyan Zhao 64 1 0 08 May 2025
a1: Steep Test-time Scaling Law via Environment Augmented Generation Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Yuyao Ge Jun Wan Yurong Wu Xueqi Cheng LRM 29 0 0 20 Apr 2025
End-to-end Planner Training for Language Modeling Nathan Cornille Florian Mai Jingyuan Sun Marie-Francine Moens 25 0 0 16 Oct 2024
RATIONALYST: Pre-training Process-Supervision for Improving Reasoning Dongwei Jiang Guoxuan Wang Yining Lu Andrew Wang Jingyu Zhang Chuyu Liu Benjamin Van Durme Daniel Khashabi ReLM LRM 32 3 0 01 Oct 2024
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning Jiaxin Wen Jian Guan Hongning Wang Wei Wu Minlie Huang ReLM OffRL LRM 31 7 0 19 Sep 2024
OLMo: Accelerating the Science of Language Models Dirk Groeneveld Iz Beltagy Pete Walsh Akshita Bhagia Rodney Michael Kinney ... Jesse Dodge Kyle Lo Luca Soldaini Noah A. Smith Hanna Hajishirzi OSLM 135 358 0 01 Feb 2024
Foundation Models for Decision Making: Problems, Methods, and Opportunities Sherry Yang Ofir Nachum Yilun Du Jason W. Wei Pieter Abbeel Dale Schuurmans LM&Ro OffRL LRM AI4CE 90 155 0 07 Mar 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 325 4,077 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 314 3,248 0 21 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 367 8,495 0 28 Jan 2022
A Recipe For Arbitrary Text Style Transfer with Large Language Models Emily Reif Daphne Ippolito Ann Yuan Andy Coenen Chris Callison-Burch Jason W. Wei 224 117 0 08 Sep 2021