QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

4 February 2025

Papers citing "QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search"

37 / 37 papers shown

Title
Large Language Models for Planning: A Comprehensive and Systematic Survey Pengfei Cao Tianyi Men Wencan Liu Jingwen Zhang Xuzhao Li Xixun Lin Dianbo Sui Yanan Cao Kang Liu Jun Zhao LLMAG LM&Ro OffRL ELM LRM 50 0 0 26 May 2025
Learning to Rank Chain-of-Thought: An Energy-Based Approach with Outcome Supervision Eric Hanchen Jiang Haozheng Luo Shengyuan Pang Xiaomin Li Zhenting Qi ... Zongyu Lin Xinfeng Li Hao Xu Kai-Wei Chang Ying Nian Wu LRM 63 0 0 21 May 2025
Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding Sakhinana Sagar Srinivas Akash Das Shivam Gupta Venkataramana Runkana OffRL 80 1 0 02 Apr 2025
Scaling Autonomous Agents via Automatic Reward Modeling And Planning Zhenfang Chen Delin Chen Rui Sun Wenjun Liu Chuang Gan LLMAG 76 4 0 17 Feb 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zihao Huang Ziyao Xu Zhiyong Yang Zonghan Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 190 250 0 22 Jan 2025
Free Process Rewards without Process Labels Lifan Yuan Wendi Li Huayu Chen Ganqu Cui Ning Ding Kaiyan Zhang Bowen Zhou Ziqiang Liu Hao Peng OffRL 89 55 0 02 Dec 2024
Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models Yuanzhao Zhai Tingkai Yang Kele Xu Feng Dawei Cheng Yang Bo Ding Huaimin Wang 228 10 0 14 Sep 2024
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents Pranav Putta Edmund Mills Naman Garg S. Motwani Chelsea Finn Divyansh Garg Rafael Rafailov LLMAG LRM 43 76 0 13 Aug 2024
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters Charlie Snell Jaehoon Lee Kelvin Xu Aviral Kumar LRM 108 576 0 06 Aug 2024
RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold Amrith Rajagopal Setlur Saurabh Garg Xinyang Geng Naman Garg Virginia Smith Aviral Kumar 67 51 0 20 Jun 2024
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning Chaojie Wang Yanchen Deng Zhiyi Lyu Liang Zeng Jujie He Shuicheng Yan Bo An LRM ReLM 55 54 0 20 Jun 2024
VDebugger: Harnessing Execution Feedback for Debugging Visual Programs Xueqing Wu Zongyu Lin Songyan Zhao Te-Lin Wu Pan Lu Nanyun Peng Kai-Wei Chang LRM 78 2 0 19 Jun 2024
VideoPhy: Evaluating Physical Commonsense for Video Generation Hritik Bansal Zongyu Lin Tianyi Xie Zeshun Zong Michal Yarom Yonatan Bitton Chenfanfu Jiang Ningyu Zhang Kai-Wei Chang Aditya Grover EGVM VGen 63 43 0 05 Jun 2024
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents Yifan Song Da Yin Xiang Yue Jie Huang Sujian Li Bill Yuchen Lin 56 74 0 04 Mar 2024
AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition Zhaorun Chen Zhuokai Zhao Zhihong Zhu Ruiqi Zhang Xiang Li Bhiksha Raj Huaxiu Yao LRM 38 25 0 18 Feb 2024
V-STaR: Training Verifiers for Self-Taught Reasoners Arian Hosseini Xingdi Yuan Nikolay Malkin Rameswar Panda Alessandro Sordoni Rishabh Agarwal ReLM LRM 64 119 0 09 Feb 2024
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models Avi Singh John D. Co-Reyes Rishabh Agarwal Ankesh Anand Piyush Patil ... Yamini Bansal Ethan Dyer Behnam Neyshabur Jascha Narain Sohl-Dickstein Noah Fiedel ALM LRM ReLM SyDa 175 171 0 11 Dec 2023
Agent Lumos: Unified and Modular Training for Open-Source Language Agents Da Yin Faeze Brahman Abhilasha Ravichander Khyathi Chandu Kai-Wei Chang Yejin Choi Bill Yuchen Lin LLMAG 50 43 0 09 Nov 2023
FireAct: Toward Language Agent Fine-tuning Baian Chen Chang Shu Ehsan Shareghi Nigel Collier Karthik Narasimhan Shunyu Yao ALM LLMAG 123 103 0 09 Oct 2023
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models Xiaoxiao Sun Yang Yang Michal Shlapentokh-Rothman Haohan Wang Yu-Xiong Wang LRM AI4CE LM&Ro LLMAG 54 199 0 06 Oct 2023
Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training Xidong Feng Bo Liu Muning Wen Stephen Marcus McAleer Ying Wen Weinan Zhang Jun Wang LRM AI4CE 46 179 0 29 Sep 2023
Reinforced Self-Training (ReST) for Language Modeling Çağlar Gülçehre T. Paine S. Srinivasan Ksenia Konyushkova L. Weerts ... Chenjie Gu Wolfgang Macherey Arnaud Doucet Orhan Firat Nando de Freitas OffRL 98 293 0 17 Aug 2023
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models Zheng Yuan Hongyi Yuan Cheng Li Guanting Dong Keming Lu Chuanqi Tan Chang Zhou Jingren Zhou LRM ALM 60 184 0 03 Aug 2023
RestGPT: Connecting Large Language Models with Real-World RESTful APIs Yifan Song Weimin Xiong Dawei Zhu Wenhao Wu Han Qian ... Cheng Li Ke Wang Rong Yao Ye Tian Sujian Li RALM LLMAG CLL LM&MA 41 60 0 11 Jun 2023
Let's Verify Step by Step Hunter Lightman V. Kosaraju Yura Burda Harrison Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever K. Cobbe ALM OffRL LRM 109 1,044 0 31 May 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 293 3,712 0 29 May 2023
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face Yongliang Shen Kaitao Song Xu Tan Dongsheng Li Weiming Lu Yueting Zhuang MLLM 78 871 0 30 Mar 2023
Reflexion: Language Agents with Verbal Reinforcement Learning Noah Shinn Federico Cassano Beck Labash A. Gopinath Karthik Narasimhan Shunyu Yao LLMAG KELM 41 1,190 0 20 Mar 2023
Learning to Detect Noisy Labels Using Model-Based Features Zhihao Wang Zongyu Lin Peiqi Liu Guidong Zheng Jun-Hao Wen Xianxin Chen Yujun Chen Zhilin Yang NoLa 30 3 0 28 Dec 2022
A Universal Discriminator for Zero-Shot Generalization Haike Xu Zongyu Lin Jing Zhou Yanan Zheng Zhilin Yang AI4CE 33 15 0 15 Nov 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 350 2,709 0 06 Oct 2022
WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents Shunyu Yao Howard Chen John Yang Karthik Narasimhan LLMAG LM&Ro 59 472 0 04 Jul 2022
ScienceWorld: Is your Agent Smarter than a 5th Grader? Ruoyao Wang Peter Alexander Jansen Marc-Alexandre Côté Prithviraj Ammanabrolu LLMAG ReLM LRM 71 117 0 14 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 596 9,009 0 28 Jan 2022
ALFWorld: Aligning Text and Embodied Environments for Interactive Learning Mohit Shridhar Xingdi Yuan Marc-Alexandre Côté Yonatan Bisk Adam Trischler Matthew J. Hausknecht LM&Ro LLMAG 63 423 0 08 Oct 2020
Is Q-learning Provably Efficient? Chi Jin Zeyuan Allen-Zhu Sébastien Bubeck Michael I. Jordan OffRL 52 801 0 10 Jul 2018
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 245 18,685 0 20 Jul 2017