ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models

22 May 2025

Razvan-Gabriel Dumitru

Papers citing "ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models"

20 / 20 papers shown

Title
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models Yang Sui Yu-Neng Chuang Guanchu Wang Jiamu Zhang Tianyi Zhang ... Hongyi Liu Andrew Wen Shaochen Zhong Hanjie Chen OffRL ReLM LRM 143 71 0 20 Mar 2025
DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models Yi Shen Jing Zhang Jieyun Huang Shuming Shi Wenjing Zhang Jiangze Yan Rongjia Du Ning Wang Kai Wang Shiguo Lian LRM 96 42 0 06 Mar 2025
Demystifying Long Chain-of-Thought Reasoning in LLMs Edward Yeo Yuxuan Tong Morry Niu Graham Neubig Xiang Yue OffRL LRM 112 107 0 05 Feb 2025
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs Xingyu Chen Jiahao Xu Tian Liang Zhiwei He Jianhui Pang ... Zizhuo Zhang Rui Wang Zhaopeng Tu Haitao Mi Dong Yu LRM ReLM 125 158 0 30 Dec 2024
Compressed Chain of Thought: Efficient Reasoning Through Dense Representations Jeffrey Cheng Benjamin Van Durme LRM 104 40 0 17 Dec 2024
C3oT: Generating Shorter Chain-of-Thought without Compromising Effectiveness Yu Kang Xianghui Sun Liangyu Chen Wei Zou LRM 140 40 0 16 Dec 2024
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge Dawei Li Bohan Jiang Liangjie Huang Alimohammad Beigi Chengshuai Zhao ... Canyu Chen Tianhao Wu Kai Shu Lu Cheng Huan Liu ELM AILaw 168 96 0 25 Nov 2024
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters Charlie Snell Jaehoon Lee Kelvin Xu Aviral Kumar LRM 108 576 0 06 Aug 2024
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark Yubo Wang Xueguang Ma Ge Zhang Yuansheng Ni Abhranil Chandra ... Kai Wang Alex Zhuang Rongqi Fan Xiang Yue Wenhu Chen LRM ELM 75 376 0 03 Jun 2024
SimPO: Simple Preference Optimization with a Reference-Free Reward Yu Meng Mengzhou Xia Danqi Chen 88 425 0 23 May 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 84 953 0 05 Feb 2024
GPQA: A Graduate-Level Google-Proof Q&A Benchmark David Rein Betty Li Hou Asa Cooper Stickland Jackson Petty Richard Yuanzhe Pang Julien Dirani Julian Michael Samuel R. Bowman AI4MH ELM 70 627 0 20 Nov 2023
Efficient Memory Management for Large Language Model Serving with PagedAttention Woosuk Kwon Zhuohan Li Siyuan Zhuang Ying Sheng Lianmin Zheng Cody Hao Yu Joseph E. Gonzalez Haotong Zhang Ion Stoica VLM 129 2,049 0 12 Sep 2023
Prompt-Based Length Controlled Generation with Reinforcement Learning Renlong Jie Xiaojun Meng Lifeng Shang Xin Jiang Qun Liu 51 9 0 23 Aug 2023
TheoremQA: A Theorem-driven Question Answering dataset Wenhu Chen Ming Yin Max Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia AIMat 58 130 0 21 May 2023
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 484 3,486 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 710 12,525 0 04 Mar 2022
Training Verifiers to Solve Math Word Problems K. Cobbe V. Kosaraju Mohammad Bavarian Mark Chen Heewoo Jun ... Jerry Tworek Jacob Hilton Reiichiro Nakano Christopher Hesse John Schulman ReLM OffRL LRM 200 4,175 0 27 Oct 2021
Measuring Mathematical Problem Solving With the MATH Dataset Dan Hendrycks Collin Burns Saurav Kadavath Akul Arora Steven Basart Eric Tang D. Song Jacob Steinhardt ReLM FaML 124 2,109 0 05 Mar 2021
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 245 18,685 0 20 Jul 2017