Open-Medical-R1: How to Choose Data for RLVR Training at Medicine Domain

Open-Medical-R1: How to Choose Data for RLVR Training at Medicine Domain

16 April 2025

Papers citing "Open-Medical-R1: How to Choose Data for RLVR Training at Medicine Domain"

8 / 8 papers shown

Title
Gemma 3 Technical Report Gemma Team Aishwarya B Kamath Johan Ferret Shreya Pathak Nino Vieillard ... Harshal Tushar Lehri Hussein Hazimeh Ian Ballantyne Idan Szpektor Ivan Nardini VLM 146 78 0 25 Mar 2025
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild Weihao Zeng Yuzhen Huang Qian Liu Wei Liu Keqing He Zejun Ma Junxian He OffRL ReLM LRM 122 85 0 24 Mar 2025
Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models Yuxiang Lai Shitian Zhao Ming Li Jike Zhong Xiaofeng Yang OffRL LRM LM&MA VLM 108 21 0 18 Mar 2025
Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning Sheng Zhang Qianchu Liu Guanghui Qin Tristan Naumann Hoifung Poon ReLM OffRL LRM 110 5 0 27 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 303 1,503 0 22 Jan 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zihao Huang Ziyao Xu Zhiyong Yang Zonghan Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 214 250 0 22 Jan 2025
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning Zhongzhen Huang Gui Geng Shengyi Hua Zhen Huang Haoyang Zou Shanghang Zhang Pengfei Liu Xiaofan Zhang LRM 66 13 0 11 Jan 2025
SGDR: Stochastic Gradient Descent with Warm Restarts I. Loshchilov Frank Hutter ODL 250 8,030 0 13 Aug 2016