Are NLP Models really able to Solve Simple Math Word Problems?

12 March 2021

Papers citing "Are NLP Models really able to Solve Simple Math Word Problems?"

50 / 63 papers shown

Title
Efficient Reasoning via Chain of Unconscious Thought Ruihan Gong Yue Liu Wenjie Qu Mingzhe Du Yufei He ... Xinfeng Li Ruidong Wang Xinzhong Zhu Bryan Hooi Jiaheng Zhang OffRL LRM 85 0 0 26 May 2025
MathEDU: Towards Adaptive Feedback for Student Mathematical Problem-Solving Wei-Ling Hsu Yu-Chien Tang An-Zi Yen 117 0 0 23 May 2025
SMART: Self-Generating and Self-Validating Multi-Dimensional Assessment for LLMs' Mathematical Problem Solving Yujie Hou Ting Zhang Mei Wang Xuetao Ma Hua Huang LRM 52 0 0 22 May 2025
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models Yuchen Yan Jin Jiang Zhenbang Ren Yijun Li Xudong Cai ... Mengdi Zhang Jian Shao Yongliang Shen Jun Xiao Yueting Zhuang OffRL ALM LRM 53 0 0 21 May 2025
Shadow-FT: Tuning Instruct via Base Taiqiang Wu Runming Yang Jiayi Li Pengfei Hu Ngai Wong Yujiu Yang 64 0 0 19 May 2025
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models Wenyuan Zhang Jiawei Sheng Xinghua Zhang Zefeng Zhang Tingwen Liu ELM LRM 58 4 0 14 Apr 2025
Development and Enhancement of Text-to-Image Diffusion Models Rajdeep Roshan Sahu VLM 85 36 0 07 Mar 2025
LLMs Can Generate a Better Answer by Aggregating Their Own Responses Zichong Li Xinyu Feng Yuheng Cai Zixuan Zhang Tianyi Liu Chen Liang Weizhu Chen Haoyu Wang Tiejun Zhao LRM 66 1 0 06 Mar 2025
CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation Zhenyi Shen Hanqi Yan Linhai Zhang Zhanghao Hu Yali Du Yulan He LRM 103 19 0 28 Feb 2025
Monte Carlo Temperature: a robust sampling strategy for LLM's uncertainty quantification methods Nicola Cecere Andrea Bacciu Ignacio Fernández Tobías Amin Mantrach 75 1 0 25 Feb 2025
Predicting Through Generation: Why Generation Is Better for Prediction Md. Kowsher Nusrat Jahan Prottasha Prakash Bhat Chun-Nam Yu Mojtaba Soltanalian Ivan Garibay O. Garibay Chen Chen Niloofar Yousefi AI4TS 106 0 0 25 Feb 2025
Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning Xinghao Chen Zhijing Sun Wenjin Guo Miaoran Zhang Yanjun Chen ... Hui Su Yijie Pan Dietrich Klakow Wenjie Li Xiaoyu Shen LRM 69 6 0 25 Feb 2025
Is Free Self-Alignment Possible? Dyah Adila Changho Shin Yijing Zhang Frederic Sala MoMe 129 2 0 24 Feb 2025
Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling Yiwen Ding Zhiheng Xi Wei He Zhuoyuan Li Yitao Zhai Xiaowei Shi Xunliang Cai Tao Gui Qi Zhang Xuanjing Huang LRM 101 4 0 24 Feb 2025
Problem-Solving Logic Guided Curriculum In-Context Learning for LLMs Complex Reasoning Xuetao Ma Wenbin Jiang Hua Huang LRM 81 3 0 21 Feb 2025
Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models Seonil Son Ju-Min Oh Heegon Jin Cheolhun Jang Jeongbeom Jeong Kuntae Kim 82 0 0 20 Feb 2025
MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs Andreas Opedal Haruki Shirakami Bernhard Schölkopf Abulhair Saparov Mrinmaya Sachan LRM 59 3 0 17 Feb 2025
Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale Fan Zhou Zengzhi Wang Qian Liu Junlong Li Pengfei Liu ALM 134 15 0 17 Feb 2025
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving Xin Xu Yan Xu Tianhao Chen Yuchen Yan Chengwu Liu ... Yansen Wang Yichun Yin Yijiao Wang Lifeng Shang Qiang Liu LRM 86 3 0 17 Feb 2025
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations Kaixuan Huang Jiacheng Guo Zihao Li X. Ji Jiawei Ge ... Yangsibo Huang Chi Jin Xinyun Chen Chiyuan Zhang Mengdi Wang AAML LRM 122 12 0 10 Feb 2025
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression J. P. Muñoz Jinjie Yuan Nilesh Jain 33 0 0 23 Jan 2025
TAPO: Task-Referenced Adaptation for Prompt Optimization Wenxin Luo Wenjie Wang Xiaopeng Li Weibo Zhou Pengyue Jia Xiangyu Zhao 67 0 0 12 Jan 2025
Understand, Solve and Translate: Bridging the Multilingual Mathematical Reasoning Gap Hyunwoo Ko Guijin Son Dasol Choi RALM LRM 98 9 0 05 Jan 2025
Mathematical Language Models: A Survey Wen Liu Hanglei Hu Jie Zhou Yuyang Ding Junsong Li ... Mengliang He Qin Chen Bo Jiang Aimin Zhou Liang He LRM 121 13 0 03 Jan 2025
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct Haipeng Luo Qingfeng Sun Can Xu Pu Zhao Jian-Guang Lou ... Xiubo Geng Qingwei Lin Shifeng Chen Yansong Tang Dongmei Zhang OSLM LRM 117 428 0 03 Jan 2025
Nash CoT: Multi-Path Inference with Preference Equilibrium Ziqi Zhang Cunxiang Wang Xiong Xiao Yue Zhang Donglin Wang LRM 56 1 0 31 Dec 2024
Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages Tejas Deshpande Nidhi Kowtal Raviraj Joshi LRM 69 1 0 31 Dec 2024
LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning Shuguang Chen Guang Lin LRM 326 0 0 28 Dec 2024
UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts Bo Yang Qingping Yang Runtao Liu Runtao Liu LRM ReLM ELM AIMat 84 1 0 11 Nov 2024
LLM-NEO: Parameter Efficient Knowledge Distillation for Large Language Models Runming Yang Taiqiang Wu Jiahao Wang Pengfei Hu Ngai Wong Yujiu Yang Yujiu Yang 304 1 0 11 Nov 2024
Number Cookbook: Number Understanding of Language Models and How to Improve It Haotong Yang Yi Hu Shijia Kang Zhouchen Lin Muhan Zhang LRM 55 4 0 06 Nov 2024
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training Haocheng Xi Han Cai Ligeng Zhu Yaojie Lu Kurt Keutzer Jianfei Chen Song Han MQ 81 9 0 25 Oct 2024
Mixture of Parrots: Experts improve memorization more than reasoning Samy Jelassi Clara Mohri David Brandfonbrener Alex Gu Nikhil Vyas Nikhil Anand David Alvarez-Melis Yuanzhi Li Sham Kakade Eran Malach MoE 53 4 0 24 Oct 2024
LLMScan: Causal Scan for LLM Misbehavior Detection Mengdi Zhang Kai Kiat Goh Peixin Zhang Jun Sun Rose Lin Xin Hongyu Zhang 87 0 0 22 Oct 2024
Opportunities and Challenges of Generative-AI in Finance Akshar Prabhu Desai Ganesh Satish Mallya Mohammad Luqman Tejasvi Ravi Nithya Kota Pranjul Yadav AIFin 68 3 0 21 Oct 2024
G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks Guibin Zhang Xinfeng Li Xiangguo Sun Guancheng Wan Miao Yu Sihang Li Kun Wang Dawei Cheng Dawei Cheng AAML AI4CE 94 11 0 15 Oct 2024
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling Wenyuan Xu Rujun Han Zhenting Wang L. Le Dhruv Madeka Lei Li Wenjie Wang Rishabh Agarwal Chen-Yu Lee Tomas Pfister 96 9 0 15 Oct 2024
FLARE: Faithful Logic-Aided Reasoning and Exploration Erik Arakelyan Pasquale Minervini Pat Verga Patrick Lewis Isabelle Augenstein ReLM LRM 93 2 0 14 Oct 2024
One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks Fangru Lin Shaoguang Mao Emanuele La Malfa Valentin Hofmann Adrian de Wynter Jing Yao Si-Qing Chen Michael Wooldridge Furu Wei Furu Wei 64 3 0 14 Oct 2024
TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees Weibin Liao Xu Chu Yasha Wang LRM 71 6 0 10 Oct 2024
Differential Transformer Tianzhu Ye Li Dong Yuqing Xia Yutao Sun Yi Zhu Gao Huang Furu Wei 319 0 0 07 Oct 2024
ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement Xiangyu Peng Congying Xia Xinyi Yang Caiming Xiong Chien-Sheng Wu Chen Xing LRM 66 5 0 03 Oct 2024
LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning Jin Jiang Yuchen Yan Yang Liu Yonggang Jin Shuai Peng Hao Fei Xunliang Cai Yixin Cao Liangcai Gao Zhi Tang LRM 78 5 0 19 Sep 2024
Self-Harmonized Chain of Thought Ziqi Jin Wei Lu LRM 52 2 0 06 Sep 2024
Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning Xinglin Wang Shaoxiong Feng Yiwei Li Peiwen Yuan Y. Zhang Boyuan Pan Heda Wang Yao Hu Kan Li LRM 69 24 0 24 Aug 2024
Personality Alignment of Large Language Models Minjun Zhu Linyi Yang Yue Zhang Yue Zhang ALM 78 6 0 21 Aug 2024
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models Kaushal Kumar Maurya KV Aditya Srivatsa Ekaterina Kochmar 49 2 0 16 Aug 2024
Benchmarking Language Model Creativity: A Case Study on Code Generation Yining Lu Dixuan Wang Tianjian Li Dongwei Jiang Daniel Khashabi Meng Jiang Daniel Khashabi LRM 73 13 0 12 Jul 2024
Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees Sijia Chen Yibo Wang Yi-Feng Wu Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang Lijun Zhang LLMAG LRM 62 14 0 11 Jun 2024
LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs Arash Gholami Davoodi Seyed Pouyan Mousavi Davoudi Pouya Pezeshkpour ELM LRM 55 4 0 07 Jun 2024