System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam

19 September 2024

Papers citing "System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam"

7 / 7 papers shown

Title
HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics Jingxuan Fan Sarah Martinson Erik Y. Wang Kaylie Hausknecht Jonah Brenner Danxian Liu Nianli Peng Corey Wang Michael P. Brenner 36 7 0 13 Oct 2024
Benchmark Data Contamination of Large Language Models: A Survey Cheng Xu Shuhao Guan Derek Greene Mohand-Tahar Kechadi ELM ALM 51 46 0 06 Jun 2024
Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective Guhao Feng Bohang Zhang Yuntian Gu Haotian Ye Di He Liwei Wang LRM 64 235 0 24 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 396 13,788 0 15 Mar 2023
Mathematical Capabilities of ChatGPT Simon Frieder Luca Pinchetti Alexis Chevalier Ryan-Rhys Griffiths Tommaso Salvatori Thomas Lukasiewicz P. Petersen Julius Berner ELM AI4MH 92 412 0 31 Jan 2023
Training Compute-Optimal Large Language Models Jordan Hoffmann Sebastian Borgeaud A. Mensch Elena Buchatskaya Trevor Cai ... Karen Simonyan Erich Elsen Jack W. Rae Oriol Vinyals Laurent Sifre AI4TS 105 1,894 0 29 Mar 2022
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 393 4,662 0 23 Jan 2020