Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing

1 February 2024

Nancy F. Chen

Papers citing "Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing"

29 / 29 papers shown

Title
BLEUBERI: BLEU is a surprisingly effective reward for instruction following Yapei Chang Yekyung Kim Michael Krumdick Amir Zadeh Chuan Li Chris Tanner Mohit Iyyer ALM 22 0 0 16 May 2025
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 76 1 0 05 May 2025
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think Hasan Hammoud Hani Itani Guohao Li ReLM LRM 80 1 0 29 Apr 2025
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning FangZhi Xu Hang Yan Chang Ma Haiteng Zhao Qiushi Sun Kanzhi Cheng Junxian He Jun Liu Zhiyong Wu LRM 34 1 0 11 Apr 2025
SWI: Speaking with Intent in Large Language Models Yuwei Yin EunJeong Hwang Giuseppe Carenini LRM 51 0 0 27 Mar 2025
Thinking Machines: A Survey of LLM based Reasoning Strategies Dibyanayan Bandyopadhyay Soham Bhattacharjee Asif Ekbal LRM ELM 48 5 0 13 Mar 2025
Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem Proving Sara Rajaee Kumar Pratik Gabriele Cesa Arash Behboodi OffRL LRM 61 0 0 12 Mar 2025
Self-rewarding correction for mathematical reasoning Wei Xiong Hanning Zhang Chenlu Ye Lichang Chen Nan Jiang Tong Zhang ReLM KELM LRM 75 9 0 26 Feb 2025
CuDIP: Enhancing Theorem Proving in LLMs via Curriculum Learning-based Direct Preference Optimization Shuming Shi Ruobing Zuo Gaolei He Jianlin Wang Chenyang Xu Zhengfeng Yang 69 0 0 25 Feb 2025
Dynamic Parallel Tree Search for Efficient LLM Reasoning Yifu Ding Wentao Jiang Shunyu Liu Yongcheng Jing J. Guo ... Zengmao Wang Ziqiang Liu Bo Du Xianglong Liu Dacheng Tao LRM 46 5 0 22 Feb 2025
PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving Mihir Parmar Xin Liu Palash Goyal Yanfei Chen L. Le ... Hootan Nakhost Chitta Baral Chen-Yu Lee Tomas Pfister Hamid Palangi 44 1 0 22 Feb 2025
A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics Ting-Ruen Wei Haowei Liu Xuyang Wu Yi Fang LRM AI4CE ReLM KELM 220 1 0 21 Feb 2025
Preference Optimization for Reasoning with Pseudo Feedback Fangkai Jiao Geyang Guo Xingxing Zhang Nancy F. Chen Chenyu You Furu Wei LRM 99 9 0 17 Feb 2025
STAIR: Improving Safety Alignment with Introspective Reasoning Y. Zhang Siyuan Zhang Yao Huang Zeyu Xia Zhengwei Fang Xiao Yang Ranjie Duan Dong Yan Yinpeng Dong Jun Zhu LRM LLMSV 58 3 0 04 Feb 2025
In-Context Learning with Iterative Demonstration Selection Chengwei Qin Aston Zhang Chong Chen Anirudh Dagar Wenming Ye LRM 70 38 0 31 Dec 2024
Outcome-Refining Process Supervision for Code Generation Zhuohao Yu Weizheng Gu Yidong Wang Zhengran Zeng Jindong Wang Wei Ye Shikun Zhang LRM 89 4 0 19 Dec 2024
Learning to Reason via Self-Iterative Process Feedback for Small Language Models Kaiyuan Chen Jin Wang Xuejie Zhang LRM ReLM 85 2 0 11 Dec 2024
Mars-PO: Multi-Agent Reasoning System Preference Optimization Xiaoxuan Lou Chaojie Wang Bo An LLMAG LRM 74 0 0 28 Nov 2024
Process Supervision-Guided Policy Optimization for Code Generation Ning Dai Zheng Wu Renjie Zheng Ziyun Wei Wenlei Shi Xing Jin Guanlin Liu Chen Dun Liang Huang Lin Yan 56 8 0 23 Oct 2024
TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees Weibin Liao Xu Chu Yasha Wang LRM 48 6 0 10 Oct 2024
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks Xingxuan Li Weiwen Xu Ruochen Zhao Fangkai Jiao Chenyu You Lidong Bing LRM 69 8 0 02 Oct 2024
LASP: Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning Haoming Li Zhaoliang Chen Jonathan Zhang Fei Liu LM&Ro LLMAG LRM 52 6 0 03 Sep 2024
Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning Zimu Lu Aojun Zhou Ke Wang Houxing Ren Weikang Shi Junting Pan Mingjie Zhan Hongsheng Li LRM 42 23 0 30 Jun 2024
Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs Xuan Zhang Chao Du Tianyu Pang Qian Liu Wei Gao Min Lin LRM AI4CE 44 34 0 13 Jun 2024
Self-Explore to Avoid the Pit: Improving the Reasoning Capabilities of Language Models with Fine-grained Rewards Hyeonbin Hwang Doyoung Kim Seungone Kim Seonghyeon Ye Minjoon Seo LRM ReLM 40 7 0 16 Apr 2024
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 345 2,232 0 22 Mar 2023
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 329 3,273 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 369 12,003 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 413 8,559 0 28 Jan 2022