GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models

13 April 2025

Papers citing "GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models"

6 / 6 papers shown

Title
SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization Minghan Chen Guikun Chen Wenguan Wang Yi Yang 12 0 0 18 May 2025
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang 7 0 0 18 May 2025
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs Yaorui Shi Shihan Li Chang Wu Zhiyuan Liu Junfeng Fang Hengxing Cai An Zhang Xinbing Wang ReLM LRM 36 0 0 16 May 2025
Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL Songjun Tu Jiahao Lin Qichao Zhang Xiangyu Tian Linjing Li Xiangyuan Lan Dongbin Zhao OffRL ReLM LRM 21 0 0 16 May 2025
SEM: Reinforcement Learning for Search-Efficient Large Language Models Zeyang Sha Shiwen Cui Weiqiang Wang KELM OffRL LRM 31 0 0 12 May 2025
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs Jinyan Su Jennifer Healey Preslav Nakov Claire Cardie LRM 165 1 0 30 Apr 2025