ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room

v1v2 (latest)

ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room

28 May 2025

Nikita Mehandru

Niloufar Golchini

Melanie F. Molina

ArXiv (abs)PDF HTML

Papers citing "ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room"

4 / 4 papers shown

Title
Medical Large Language Model Benchmarks Should Prioritize Construct Validity Ahmed M. Alaa Thomas Hartvigsen Niloufar Golchini Shiladitya Dutta Frances Dean Inioluwa Deborah Raji Travis Zack AI4MH ELM LM&MA 84 6 0 12 Mar 2025
The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer Marthe Ballon Andres Algaba Vincent Ginis LRM ReLM 104 17 0 24 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 384 2,022 0 22 Jan 2025
Evaluating Transparent Reasoning in Large Language Models for Accountable Critical Tasks Bowen Wang Jiuyang Chang Yiming Qian Guoxin Chen LRM LM&MA ELM 111 6 0 04 Aug 2024