Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language Models

18 June 2024

Dan Alistarh

Papers citing "Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language Models"

3 / 3 papers shown

Title
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models Marianna Nezhurina Lucia Cipolina-Kun Mehdi Cherti J. Jitsev LLMAG LRM ELM ReLM 73 30 0 04 Jun 2024
Qwen Technical Report Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang ... Zhenru Zhang Chang Zhou Jingren Zhou Xiaohuan Zhou Tianhang Zhu OSLM 117 1,709 0 28 Sep 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 180 13,788 0 15 Mar 2023