HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics

13 October 2024

Papers citing "HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics"

4 / 4 papers shown

Title
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models Daman Arora H. Singh Mausam ELM LRM 105 55 0 24 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.5K 14,699 0 15 Mar 2023
Mathematical Capabilities of ChatGPT Simon Frieder Luca Pinchetti Alexis Chevalier Ryan-Rhys Griffiths Tommaso Salvatori Thomas Lukasiewicz P. Petersen Julius Berner ELM AI4MH 131 430 0 31 Jan 2023
Training Verifiers to Solve Math Word Problems K. Cobbe V. Kosaraju Mohammad Bavarian Mark Chen Heewoo Jun ... Jerry Tworek Jacob Hilton Reiichiro Nakano Christopher Hesse John Schulman ReLM OffRL LRM 326 4,569 0 27 Oct 2021