Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning

4 June 2023

Papers citing "Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning"

31 / 31 papers shown

Title
Beyond Single-Point Judgment: Distribution Alignment for LLM-as-a-Judge Luyu Chen Zeyu Zhang Haoran Tan Quanyu Dai Hao-ran Yang Zhenhua Dong Xu Chen 4 0 0 18 May 2025
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey Da Zheng Lun Du Junwei Su Yuchen Tian Yuqi Zhu Jintian Zhang Lanning Wei Ningyu Zhang H. Chen LRM 61 0 0 06 May 2025
Multimodal Agricultural Agent Architecture (MA3): A New Paradigm for Intelligent Agricultural Decision-Making Zhuoning Xu Jian Xu Hao Fei P. Wang Chao Deng Cheng-Lin Liu 31 0 0 07 Apr 2025
CATP-LLM: Empowering Large Language Models for Cost-Aware Tool Planning Duo Wu Yufei Guo Yuan Meng Yanning Zhang Le Sun Zhi Wang 210 0 0 25 Nov 2024
Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset Khaoula Chehbouni Jonathan Colaço-Carr Yash More Jackie CK Cheung G. Farnadi 78 0 0 12 Nov 2024
MoD: A Distribution-Based Approach for Merging Large Language Models Quy-Anh Dang Chris Ngo MoMe VLM 31 0 0 01 Nov 2024
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch Yuyang Ding Xinyu Shi Xiaobo Liang Juntao Li Qiaoming Zhu Min Zhang ELM AIMat SyDa LRM 30 9 0 24 Oct 2024
Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering Yuxiang Wang Jianzhong Qi Junhao Gan LMTD 53 2 0 10 Oct 2024
From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions Changle Qu Sunhao Dai Xiaochi Wei Hengyi Cai Shuaiqiang Wang Dawei Yin Jun Xu Ji-Rong Wen 60 9 0 10 Oct 2024
Differential Transformer Tianzhu Ye Li Dong Yuqing Xia Yutao Sun Yi Zhu Gao Huang Furu Wei 171 0 0 07 Oct 2024
Retrieval-Augmented Instruction Tuning for Automated Process Engineering Calculations : A Tool-Chaining Problem-Solving Framework with Attributable Reflection Sagar Srinivas Sakhinana Geethan Sannidhi Venkataramana Runkana 35 0 0 28 Aug 2024
FRoG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models Yiyuan Li Shichao Sun Pengfei Liu LRM 59 0 0 01 Jul 2024
What is the best model? Application-driven Evaluation for Large Language Models Shiguo Lian Kaikai Zhao Xinhui Liu Xuejiao Lei Bikun Yang Wenjing Zhang Kai Wang Zhaoxiang Liu ALM ELM 43 2 0 14 Jun 2024
Evaluating Mathematical Reasoning of Large Language Models: A Focus on Error Identification and Correction Xiaoyuan Li Wenjie Wang Moxin Li Junrong Guo Yang Zhang Fuli Feng ELM LRM 38 15 0 02 Jun 2024
Tool Learning with Large Language Models: A Survey Changle Qu Sunhao Dai Xiaochi Wei Hengyi Cai Shuaiqiang Wang Dawei Yin Jun Xu Jirong Wen LLMAG 34 83 0 28 May 2024
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models Kun Zhou Beichen Zhang Jiapeng Wang Zhipeng Chen Wayne Xin Zhao Jing Sha Zhichao Sheng Shijin Wang Ji-Rong Wen SyDa LRM 46 30 0 23 May 2024
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline Yifan Xu Xiao Liu Xinghan Liu Zhenyu Hou Yueyan Li ... Aohan Zeng Zhengxiao Du Wenyi Zhao Jie Tang Yuxiao Dong LRM 49 36 0 03 Apr 2024
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning Yiming Huang Xiao Liu Yeyun Gong Zhibin Gou Yelong Shen Nan Duan Weizhu Chen AIMat LRM 58 36 0 04 Mar 2024
UrbanKGent: A Unified Large Language Model Agent Framework for Urban Knowledge Graph Construction Yansong Ning Hao Liu LLMAG 31 2 0 10 Feb 2024
Large Language Models for Mathematical Reasoning: Progresses and Challenges Janice Ahn Rishu Verma Renze Lou Di Liu Rui Zhang Wenpeng Yin LRM 38 116 0 31 Jan 2024
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint Zhipeng Chen Kun Zhou Wayne Xin Zhao Junchen Wan Fuzheng Zhang Di Zhang Ji-Rong Wen KELM 39 32 0 11 Jan 2024
Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges Qingyao Li Lingyue Fu Weiming Zhang Xianyu Chen Jingwei Yu Wei Xia Weinan Zhang Ruiming Tang Yong Yu AI4Ed ELM 43 18 0 27 Dec 2023
FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity Shiyao Cui Zhenyu Zhang Yilong Chen Wenyuan Zhang Tianyun Liu Siqi Wang Tingwen Liu 41 13 0 30 Nov 2023
ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving Zhibin Gou Zhihong Shao Yeyun Gong Yelong Shen Yujiu Yang Minlie Huang Nan Duan Weizhu Chen LRM AI4CE LLMAG 61 145 0 29 Sep 2023
Multimodal Multi-Hop Question Answering Through a Conversation Between Tools and Efficiently Finetuned Large Language Models Hossein Rajabzadeh Suyuchen Wang Hyock Ju Kwon Bang Liu KELM 29 3 0 16 Sep 2023
A Survey on Evaluation of Large Language Models Yu-Chu Chang Xu Wang Jindong Wang Yuanyi Wu Linyi Yang ... Yue Zhang Yi-Ju Chang Philip S. Yu Qian Yang Xingxu Xie ELM LM&MA ALM 75 1,517 0 06 Jul 2023
ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models Z. Chen Kun Zhou Beichen Zhang Zheng Gong Wayne Xin Zhao Ji-Rong Wen KELM LRM 24 27 0 23 May 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 273 2,510 0 06 Oct 2022
Complexity-Based Prompting for Multi-Step Reasoning Yao Fu Hao-Chun Peng Ashish Sabharwal Peter Clark Tushar Khot ReLM LRM 162 414 0 03 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 339 12,003 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 395 8,559 0 28 Jan 2022