v1v2 (latest)

PAL: Program-aided Language Models

18 November 2022

Graham Neubig

Papers citing "PAL: Program-aided Language Models"

50 / 107 papers shown

Title
ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs Feng He Zijun Chen Xinnian Liang Tingting Ma Yunqi Qiu Shuangzhi Wu Junchi Yan LRM 74 0 0 18 Jun 2025
CoRT: Code-integrated Reasoning within Thinking Chengpeng Li Zhengyang Tang Ziniu Li Mingfeng Xue Keqin Bao ... Ruoyu Sun Benyou Wang Xiang Wang Junyang Lin Dayiheng Liu LLMAG OffRL ReLM LRM 76 0 0 11 Jun 2025
The Road to Generalizable Neuro-Symbolic Learning Should be Paved with Foundation Models Adam Stein Aaditya Naik Neelay Velingker Mayur Naik Eric Wong NAI AI4CE 29 1 0 30 May 2025
Semi-structured LLM Reasoners Can Be Rigorously Audited Jixuan Leng Cassandra A. Cohen Zhixian Zhang Chenyan Xiong William W. Cohen LRM 35 0 0 30 May 2025
MDPO: Multi-Granularity Direct Preference Optimization for Mathematical Reasoning Yunze Lin LRM 15 0 0 30 May 2025
Born a Transformer -- Always a Transformer? Yana Veitsman Mayank Jobanputra Yash Sarrof Aleksandra Bakalova Vera Demberg Ellie Pavlick Michael Hahn 61 0 0 27 May 2025
R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning Yongchao Chen Y. Liu Junwei Zhou Yilun Hao Jingquan Wang Yang Zhang Chuchu Fan OffRL ReLM AI4TS SyDa ALM LRM 74 0 0 27 May 2025
Interleaved Reasoning for Large Language Models via Reinforcement Learning Roy Xie David Qiu Deepak Gopinath Dong Lin Yanchao Sun Chong-Jun Wang Saloni Potdar Bhuwan Dhingra KELM LRM 75 0 0 26 May 2025
Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection Zhihong Pan Kai Zhang Yuze Zhao Yupeng Han LRM 63 0 0 26 May 2025
Retrieval-Augmented Generation for Service Discovery: Chunking Strategies and Benchmarking Robin D. Pesl Jerin G. Mathew Massimo Mecella Marco Aiello 57 1 0 25 May 2025
Autocomp: LLM-Driven Code Optimization for Tensor Accelerators Charles Hong Sahil Bhatia Alvin Cheung Y. Shao 69 1 0 24 May 2025
Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains Wenhui Tan Jiaze Li Jianzhong Ju Zhenbo Luo Jian Luan Ruihua Song ReLM OffRL LRM 107 1 0 22 May 2025
PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning Falong Fan Xi Li LLMAG AAML 90 0 0 16 May 2025
Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving Xinji Mai Haotian Xu X. Wu Weinong Wang Yingying Zhang Wenqiang Zhang ReLM LRM 158 3 0 12 May 2025
Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning Can Jin Hongwu Peng Qixin Zhang Yujin Tang Dimitris N. Metaxas Tong Che LLMAG LRM 437 9 0 14 Apr 2025
AutoPDL: Automatic Prompt Optimization for LLM Agents Claudio Spiess Mandana Vaziri Louis Mandel Martin Hirzel 62 2 0 06 Apr 2025
Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap Tong Nie Jian Sun Wei Ma 228 4 0 27 Mar 2025
Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation Bowen Baker Joost Huizinga Leo Gao Zehao Dou M. Guan Aleksander Mądry Wojciech Zaremba J. Pachocki David Farhi LRM 188 38 0 14 Mar 2025
Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem Proving Sara Rajaee Kumar Pratik Gabriele Cesa Arash Behboodi OffRL LRM 119 0 0 12 Mar 2025
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol Roham Koohestani Philippe de Bekker Maliheh Izadi VLM 115 0 0 07 Mar 2025
Can Large Language Models Extract Customer Needs as well as Professional Analysts? Artem Timoshenko Chengfeng Mao J. Hauser ELM 132 0 0 25 Feb 2025
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics Ruilin Luo Zhuofan Zheng Yifan Wang Xinzhe Ni Zicheng Lin ... Yiyao Yu C. Shi Ruihang Chu Jin Zeng Yujiu Yang LRM 223 25 0 08 Jan 2025
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web Hiroki Furuta Yutaka Matsuo Aleksandra Faust Izzeddin Gur CLL 205 16 0 03 Jan 2025
Mathematical Language Models: A Survey Wen Liu Hanglei Hu Jie Zhou Yuyang Ding Junsong Li ... Mengliang He Qin Chen Bo Jiang Aimin Zhou Liang He LRM 235 14 0 03 Jan 2025
An Overview and Discussion on Using Large Language Models for Implementation Generation of Solutions to Open-Ended Problems Hashmath Shaik Alex Doboli OffRL ELM 467 0 0 31 Dec 2024
The importance of visual modelling languages in generative software engineering Roberto Rossi 163 1 0 27 Nov 2024
Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization Xiyue Peng Hengquan Guo Jiawei Zhang Dongqing Zou Ziyu Shao Honghao Wei Xin Liu 134 4 0 25 Oct 2024
Mixture of Parrots: Experts improve memorization more than reasoning Samy Jelassi Clara Mohri David Brandfonbrener Alex Gu Nikhil Vyas Nikhil Anand David Alvarez-Melis Yuanzhi Li Sham Kakade Eran Malach MoE 113 5 0 24 Oct 2024
Steering Large Language Models between Code Execution and Textual Reasoning Yongchao Chen Harsh Jhamtani Srinagesh Sharma Chuchu Fan Chi Wang LLMAG LRM 160 9 0 04 Oct 2024
What Makes a Maze Look Like a Maze? Joy Hsu Jiayuan Mao J. Tenenbaum Noah D. Goodman Jiajun Wu OCL 130 6 0 12 Sep 2024
Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer Mingda Li Abhijit Mishra Utkarsh Mujumdar 104 0 0 19 Aug 2024
Automated Design of Agentic Systems Shengran Hu Cong Lu Jeff Clune AI4CE 143 62 0 15 Aug 2024
OptiMUS-0.3: Using Large Language Models to Model and Solve Optimization Problems at Scale Ali AhmadiTeshnizi Wenzhi Gao Herman Brunborg Shayan Talaei Connor Lawless Madeleine Udell 131 5 0 29 Jul 2024
Grammar-based Game Description Generation using Large Language Models Tsunehiko Tanaka Edgar Simo-Serra 135 2 0 24 Jul 2024
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions Terry Yue Zhuo Minh Chien Vu Jenny Chim Han Hu Wenhao Yu ... David Lo Daniel Fried Xiaoning Du H. D. Vries Leandro von Werra 237 193 0 22 Jun 2024
MedCalc-Bench: Evaluating Large Language Models for Medical Calculations Nikhil Khandekar Qiao Jin Guangzhi Xiong Soren Dunn Serina S Applebaum ... Amisha D. Dave Andrew Taylor Aidong Zhang Qingyu Chen Zhiyong Lu LM&MA ELM 121 14 0 17 Jun 2024
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models Seungone Kim Juyoung Suk Ji Yong Cho Shayne Longpre Chaeeun Kim ... Sean Welleck Graham Neubig Moontae Lee Kyungjae Lee Minjoon Seo ELM ALM LM&MA 208 44 0 09 Jun 2024
ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation Houxing Ren Mingjie Zhan Zhongyuan Wu Aojun Zhou Junting Pan Hongsheng Li SyDa 125 7 0 27 May 2024
Can LLMs Solve longer Math Word Problems Better? Xin Xu Tong Xiao Zitong Chao Zhenya Huang Can Yang Yang Wang 173 14 0 23 May 2024
LLMs can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought Zhuoxuan Jiang Haoyuan Peng Shanshan Feng Fan Li Dongsheng Li KELM LRM 95 16 0 09 May 2024
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM Timin Gao Peixian Chen Mengdan Zhang Chaoyou Fu Yunhang Shen ... Shengchuan Zhang Xiawu Zheng Xing Sun Liujuan Cao Rongrong Ji MLLM LRM 121 22 0 24 Apr 2024
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems Qihuang Zhong Kang Wang Ziyang Xu Juhua Liu Liang Ding Bo Du LRM AIMat 162 4 0 23 Apr 2024
Distilling Reasoning Ability from Large Language Models with Adaptive Thinking Xiao Chen Sihang Zhou K. Liang Xinwang Liu ReLM LRM 111 6 0 14 Apr 2024
Rho-1: Not All Tokens Are What You Need Zheng-Wen Lin Zhibin Gou Yeyun Gong Xiao Liu Yelong Shen ... Chen Lin Yujiu Yang Jian Jiao Nan Duan Weizhu Chen CLL 160 75 0 11 Apr 2024
On the Importance of Uncertainty in Decision-Making with Large Language Models Nicolò Felicioni Lucas Maystre Sina Ghiassian K. Ciosek LLMAG 107 2 0 03 Apr 2024
Large Language Models are Contrastive Reasoners Liang Yao ReLM ELM LRM 110 3 0 13 Mar 2024
SwissNYF: Tool Grounded LLM Agents for Black Box Setting Somnath Sendhil Kumar Dhruv Jain Eshaan Agarwal Raunak Pandey LLMAG 64 0 0 15 Feb 2024
Large Language Models: A Survey Shervin Minaee Tomas Mikolov Narjes Nikzad M. Asgari-Chenaghlu R. Socher Xavier Amatriain Jianfeng Gao ALM LM&MA ELM 248 425 0 09 Feb 2024
Enhancing Large Language Models for Clinical Decision Support by Incorporating Clinical Practice Guidelines David Oniani Xizhi Wu Shyam Visweswaran S. Kapoor Shravan Kooragayalu Katelyn Polanska Yanshan Wang LM&MA ELM AI4MH 54 12 0 20 Jan 2024
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline Minpeng Liao Wei Luo Chengxi Li Jing Wu Kai Fan LRM 117 48 0 16 Jan 2024