AtmosSci-Bench: Evaluating the Recent Advance of Large Language Model for Atmospheric Science

3 February 2025

Papers citing "AtmosSci-Bench: Evaluating the Recent Advance of Large Language Model for Atmospheric Science"

28 / 28 papers shown

Title
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs Jiazhan Feng Shijue Huang Xingwei Qu Ge Zhang Yujia Qin Baoquan Zhong Chengquan Jiang Jinxin Chi Wanjun Zhong OffRL ReLM SyDa KELM LRM 120 23 0 15 Apr 2025
Number Cookbook: Number Understanding of Language Models and How to Improve It Haotong Yang Yi Hu Shijia Kang Zhouchen Lin Muhan Zhang LRM 72 6 0 06 Nov 2024
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models Iman Mirzadeh Keivan Alizadeh Hooman Shahrokhi Oncel Tuzel Samy Bengio Mehrdad Farajtabar AIMat LRM 86 168 0 07 Oct 2024
On the Opportunities of (Re)-Exploring Atmospheric Science by Foundation Models: A Case Study Lujia Zhang Hanzhe Cui Yurong Song Chenyue Li Binhang Yuan Mengqian Lu AI4Cl AI4CE 45 2 0 25 Jul 2024
Qwen2 Technical Report An Yang Baosong Yang Binyuan Hui Jian Xu Bowen Yu ... Yuqiong Liu Zeyu Cui Zhenru Zhang Zhifang Guo Zhi-Wei Fan OSLM VLM MU 108 926 0 15 Jul 2024
Is Your Large Language Model Knowledgeable or a Choices-Only Cheater? Nishant Balepur Rachel Rudinger 60 7 0 02 Jul 2024
VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation Kun Qian Shunji Wan Claudia Tang Youzhi Wang Xuanming Zhang Maximillian Chen Zhou Yu AAML 62 10 0 25 Jun 2024
SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading Tu Anh Dinh Carlos Mullov Leonard Barmann Zhaolin Li Danni Liu ... Michael Beigl Rainer Stiefelhagen Carsten Dachsbacher Klemens Bohm Jan Niehues ELM 62 11 0 14 Jun 2024
NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning Eli Schwartz Leshem Choshen J. Shtok Sivan Doveh Leonid Karlinsky Assaf Arbelle 60 15 0 30 Mar 2024
Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs Aaditya K. Singh DJ Strouse 82 56 0 22 Feb 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 108 1,073 0 05 Feb 2024
ClimateGPT: Towards AI Synthesizing Interdisciplinary Research on Climate Change David Thulke Yingbo Gao Petrus Pelser Rein Brune Rricha Jalota ... Mohammad Shihadah Hermann Ney Christian Dugast Jonathan Dotan Daniel Erasmus 32 41 0 17 Jan 2024
Mixtral of Experts Albert Q. Jiang Alexandre Sablayrolles Antoine Roux A. Mensch Blanche Savary ... Théophile Gervet Thibaut Lavril Thomas Wang Timothée Lacroix William El Sayed MoE LLMAG 142 1,075 0 08 Jan 2024
GPQA: A Graduate-Level Google-Proof Q&A Benchmark David Rein Betty Li Hou Asa Cooper Stickland Jackson Petty Richard Yuanzhe Pang Julien Dirani Julian Michael Samuel R. Bowman AI4MH ELM 74 662 0 20 Nov 2023
Large Language Models Are Not Robust Multiple Choice Selectors Chujie Zheng Hao Zhou Fandong Meng Jie Zhou Minlie Huang 53 238 0 07 Sep 2023
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models Xiaoxuan Wang Ziniu Hu Pan Lu Yanqiao Zhu Jieyu Zhang Satyen Subramaniam Arjun R. Loomba Shichang Zhang Yizhou Sun Wei Wang ELM LRM 39 105 0 20 Jul 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 267 11,791 0 18 Jul 2023
FuXi: A cascade machine learning forecasting system for 15-day global weather forecast Lei Chen Xiaohui Zhong Feng-jun Zhang Yuan Cheng Yinghui Xu Yuan Qi Hao Li AI4Cl 58 217 0 22 Jun 2023
FengWu: Pushing the Skillful Global Medium-range Weather Forecast beyond 10 Days Lead Kan Chen Tao Han Junchao Gong Lei Bai Fenghua Ling ... Rui Su Yuanzheng Ci Bin Li Xiaokang Yang Wanli Ouyang AI4Cl AI4CE 160 182 0 06 Apr 2023
ClimaX: A foundation model for weather and climate Tung Nguyen Johannes Brandstetter Ashish Kapoor Jayesh K. Gupta Aditya Grover AI4Cl AI4CE 57 255 0 24 Jan 2023
GraphCast: Learning skillful medium-range global weather forecasting Rémi R. Lam Alvaro Sanchez-Gonzalez Matthew Willson Peter Wirnsberger Meire Fortunato ... Oriol Vinyals Jacklynn Stott Alexander Pritzel S. Mohamed Peter W. Battaglia AI4Cl 112 281 0 24 Dec 2022
Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast Kaifeng Bi Lingxi Xie Hengheng Zhang Xin Chen Xiaotao Gu Qi Tian AI4Cl 68 159 0 03 Nov 2022
FourCastNet: A Global Data-driven High-resolution Weather Model using Adaptive Fourier Neural Operators Jaideep Pathak Shashank Subramanian P. Harrington S. Raja Ashesh Chattopadhyay ... Zong-Yi Li Kamyar Azizzadenesheli Pedram Hassanzadeh K. Kashinath Anima Anandkumar AI4Cl 198 682 0 22 Feb 2022
Training Verifiers to Solve Math Word Problems K. Cobbe V. Kosaraju Mohammad Bavarian Mark Chen Heewoo Jun ... Jerry Tworek Jacob Hilton Reiichiro Nakano Christopher Hesse John Schulman ReLM OffRL LRM 225 4,354 0 27 Oct 2021
ClimateBert: A Pretrained Language Model for Climate-Related Text Nicolas Webersinke Mathias Kraus Jiabo Huang Markus Leippold AI4CE 69 138 0 22 Oct 2021
Measuring Mathematical Problem Solving With the MATH Dataset Dan Hendrycks Collin Burns Saurav Kadavath Akul Arora Steven Basart Eric Tang D. Song Jacob Steinhardt ReLM FaML 147 2,220 0 05 Mar 2021
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 662 41,736 0 28 May 2020
Ray: A Distributed Framework for Emerging AI Applications Philipp Moritz Robert Nishihara Stephanie Wang Alexey Tumanov Richard Liaw ... Melih Elibol Zongheng Yang William Paul Michael I. Jordan Ion Stoica GNN 89 1,256 0 16 Dec 2017