Title
Med-REFL: Medical Reasoning Enhancement via Self-Corrected Fine-grained Reflection Zongxian Yang Jiayu Qian Zegao Peng Haoyu Zhang Z. Huang LRM 41 0 0 11 Jun 2025
SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning Mengya Xu Zhongzhen Huang Dillan Imans Yiru Ye Xiaofan Zhang Qi Dou 42 0 0 08 Jun 2025
Enhancing Clinical Multiple-Choice Questions Benchmarks with Knowledge Graph Guided Distractor Generation Running Yang Wenlong Deng Minghui Chen Yuyin Zhou Xiaoxiao Li 51 0 0 31 May 2025
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants Yiqun Zhang Hao Li Chenxu Wang L. Chen Qiaosheng Zhang ... Xinrun Wang Jia Xu Lei Bai Wanli Ouyang Shuyue Hu 87 0 0 26 May 2025
Improving Medical Reasoning with Curriculum-Aware Reinforcement Learning Shaohao Rui Kaitao Chen Weijie Ma Xiaosong Wang OffRL LRM 33 0 0 25 May 2025
TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification Jianghao Wu Feilong Tang Yulong Li Ming Hu Haochen Xue Shoaib Jameel Yutong Xie Imran Razzak LRM 56 0 0 23 May 2025
MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning Suhao Yu Haojin Wang Juncheng Wu Cihang Xie Yuyin Zhou 83 1 0 22 May 2025
Context-Free Synthetic Data Mitigates Forgetting Parikshit Bansal Sujay Sanghavi CLL 139 0 0 20 May 2025
Disentangling Reasoning and Knowledge in Medical Large Language Models Rahul Thapa Qingyang Wu Kevin Wu Harrison Zhang Angela Zhang ... Joseph Boen Shriya Reddy Ben Athiwaratkun Shuaiwen Leon Song James Zou ELM AI4MH LM&MA LRM 136 2 0 16 May 2025
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning Jian Zhao Runze Liu Kaiyan Zhang Zhimu Zhou Junqi Gao ... Jiafei Lyu Zhouyi Qian Biqing Qi Xiu Li Bowen Zhou OffRL LRM 141 13 0 01 Apr 2025
Medical Reasoning in LLMs: An In-Depth Analysis of DeepSeek R1 Birger Moëll Fredrik Sand Aronsson Sanian Akbar ELM LRM 72 1 0 27 Mar 2025
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation Bo Pang Hanze Dong Jiacheng Xu Siyang Song Yingbo Zhou Caiming Xiong KELM LRM 210 10 0 06 Feb 2025
LIMO: Less is More for Reasoning Yixin Ye Zhen Huang Yang Xiao Ethan Chern Shijie Xia Pengfei Liu LRM 196 166 0 05 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 470 2,033 0 22 Jan 2025
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning Haotian Luo Li Shen Haiying He Yun Wang Shiwei Liu Wei Li Naiqiang Tan Xiaochun Cao Dacheng Tao VLM LRM 198 97 0 22 Jan 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zihao Huang Ziyao Xu Zhiyong Yang Zonghan Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 365 338 0 22 Jan 2025
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs Xingyu Chen Jiahao Xu Tian Liang Zhiwei He Jianhui Pang ... Zizhuo Zhang Rui Wang Zhaopeng Tu Haitao Mi Dong Yu LRM ReLM 243 197 0 30 Dec 2024
Malware Classification using a Hybrid Hidden Markov Model-Convolutional Neural Network Ritik Mehta Olha Jurecková Mark Stamp 145 0 0 25 Dec 2024
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson? Zhen Huang Haoyang Zou Xuefeng Li Yixiu Liu Yuxiang Zheng Ethan Chern Shijie Xia Yiwei Qin Weizhe Yuan Pengfei Liu VLM 135 52 0 25 Nov 2024
GPT-4o System Card OpenAI OpenAI : Aaron Hurst Adam Lerer Adam P. Goucher ... Yuchen He Yuchen Zhang Yujia Jin Yunxing Dai Yury Malkov MLLM 283 1,044 0 25 Oct 2024
OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models Jun Wang Meng Fang Bo Liu Muning Wen Jiachen Zhu ... Lei Chen Lionel M. Ni Linyi Yang Ying Wen Weinan Zhang LRM 100 39 0 12 Oct 2024
Evaluation of OpenAI o1: Opportunities and Challenges of AGI Tianyang Zhong Zhengliang Liu Yi Pan Yutong Zhang Yifan Zhou ... Andrea Sikora Xiaoming Zhai Dajiang Zhu Tuo Zhang Andrea Sikora LRM AI4CE ReLM ELM VLM 118 99 0 27 Sep 2024
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? Yunfei Xie Juncheng Wu Haoqin Tu Siwei Yang Bingchen Zhao Yongshuo Zong Qiao Jin Cihang Xie Yuyin Zhou LM&MA ELM LRM 116 26 0 23 Sep 2024
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine Yunfei Xie Ce Zhou Lang Gao Juncheng Wu Xianhang Li ... Sheng Liu Lei Xing James Zou Cihang Xie Yuyin Zhou MedIm LM&MA 196 32 0 06 Aug 2024
CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis Junying Chen Chi Gui Anningzhe Gao Ke Ji Xidong Wang Xiang Wan Benyou Wang MedIm AI4CE LM&MA 82 18 0 18 Jul 2024
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark Yubo Wang Xueguang Ma Ge Zhang Yuansheng Ni Abhranil Chandra ... Kai Wang Alex Zhuang Rongqi Fan Xiang Yue Wenhu Chen LRM ELM 193 465 0 03 Jun 2024
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions Hanjie Chen Zhouxiang Fang Yash Singla Mark Dredze ELM AI4MH 145 43 0 28 Feb 2024
Towards Building Multilingual Language Model for Medicine Pengcheng Qiu Chaoyi Wu Xiaoman Zhang Weixiong Lin Haicheng Wang Ya Zhang Yanfeng Wang Weidi Xie LM&MA ELM 139 90 0 21 Feb 2024
Me LLaMA: Foundation Large Language Models for Medical Applications Qianqian Xie Qingyu Chen Aokun Chen C.A.I. Peng Yan Hu ... Huan He Lucila Ohno-Machido Yonghui Wu Hua Xu Jiang Bian LM&MA AI4MH 131 4 0 20 Feb 2024
BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains Yanis Labrak Adrien Bazoge Emmanuel Morin P. Gourraud Mickael Rouvier Richard Dufour 229 228 0 15 Feb 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 263 1,289 0 05 Feb 2024
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions Lei Huang Weijiang Yu Weitao Ma Weihong Zhong Zhangyin Feng ... Qianglong Chen Weihua Peng Xiaocheng Feng Bing Qin Ting Liu LRM HILM 154 939 0 09 Nov 2023
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day Chunyuan Li Cliff Wong Sheng Zhang Naoto Usuyama Haotian Liu Jianwei Yang Tristan Naumann Hoifung Poon Jianfeng Gao LM&MA MedIm 150 802 0 01 Jun 2023
Towards Reasoning in Large Language Models: A Survey Jie Huang Kevin Chen-Chuan Chang LM&MA ELM LRM 219 645 0 20 Dec 2022
MedMCQA : A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering Ankit Pal Logesh Kumar Umapathi Malaikannan Sankarasubbu ELM LM&MA 117 354 0 27 Mar 2022
What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams Di Jin Eileen Pan Nassim Oufattole W. Weng Hanyi Fang Peter Szolovits FaML ELM LM&MA 146 820 0 28 Sep 2020
Measuring Massive Multitask Language Understanding Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika Basel Alomair Jacob Steinhardt ELM RALM 549 4,587 0 07 Sep 2020
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models Samyam Rajbhandari Jeff Rasley Olatunji Ruwase Yuxiong He ALM AI4CE 96 923 0 04 Oct 2019
PubMedQA: A Dataset for Biomedical Research Question Answering Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu 447 918 0 13 Sep 2019