Title
SSR: Speculative Parallel Scaling Reasoning in Test-time Yuanlin Chu Bo Wang Xiang Liu Hong Chen Aiwei Liu Xuming Hu ReLM LRM 113 0 0 21 May 2025
Training Step-Level Reasoning Verifiers with Formal Verification Tools Ryo Kamoi Yusen Zhang Nan Zhang Sarkar Snigdha Sarathi Das Rui Zhang OffRL LRM 65 0 0 21 May 2025
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning Shivam Agarwal Zimin Zhang Lifan Yuan Jiawei Han Hao Peng 180 8 0 21 May 2025
Towards Spoken Mathematical Reasoning: Benchmarking Speech-based Models over Multi-faceted Math Problems Chengwei Wei Bin Wang Jung-jae Kim Nancy F. Chen AuLLM ReLM LRM 68 0 0 21 May 2025
Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning Yurun Yuan Fan Chen Zeyu Jia Alexander Rakhlin Tengyang Xie OffRL 138 1 0 21 May 2025
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities Jinyang Wu Chonghua Liao Mingkuan Feng Shuai Zhang Zhengqi Wen Pengpeng Shao Huazhe Xu Jianhua Tao LRM OffRL 153 3 0 21 May 2025
SCOPE: Compress Mathematical Reasoning Steps for Efficient Automated Process Annotation Huimin Xu Xin Mao Feng-Lin Li Xiaobao Wu Wang Chen Wei Zhang Anh Tuan Luu 42 1 0 20 May 2025
General-Reasoner: Advancing LLM Reasoning Across All Domains Xueguang Ma Qian Liu Dongfu Jiang Ge Zhang Zejun Ma Wenhu Chen AI4CE LRM 127 6 0 20 May 2025
Activation-Guided Consensus Merging for Large Language Models Yuxuan Yao Shuqi Liu Zehua Liu Qintong Li Mingyang Liu Xiongwei Han Zhijiang Guo Han Wu Linqi Song MoMe 147 0 0 20 May 2025
SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning Xiong Jun Wu Zhenduo Zhang ZuJie Wen Zhiqiang Zhang Wang Ren ... Xudong Han Chengfu Tang Dingnan Jin Qing Cui Jun Zhou LRM 227 1 0 20 May 2025
AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum Jian Xiong Jingbo Zhou Jingyong Ye Dejing Dou LRM 102 0 0 20 May 2025
The Hallucination Tax of Reinforcement Finetuning Linxin Song Taiwei Shi Jieyu Zhao HILM LRM 146 0 0 20 May 2025
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards Xiaoyuan Liu Tian Liang Zhiwei He Jiahao Xu Wenxuan Wang Pinjia He Zhaopeng Tu Haitao Mi Dong Yu OffRL ReLM LRM 124 0 0 19 May 2025
Optimizing Anytime Reasoning via Budget Relative Policy Optimization Penghui Qi Zichen Liu Tianyu Pang Chao Du W. Lee Min Lin OffRL LRM 104 3 0 19 May 2025
Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference Jin Du Li Chen Xun Xian An Luo Fangqiao Tian Ganghua Wang Charles Doss Xiaotong Shen Jie Ding CML ELM 49 0 0 19 May 2025
SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization Minghan Chen Guikun Chen Wenguan Wang Yi Yang 101 3 0 18 May 2025
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang 113 1 0 18 May 2025
InfiJanice: Joint Analysis and In-situ Correction Engine for Quantization-Induced Math Degradation in Large Language Models Zhen Li Yupeng Su Songmiao Wang Runming Yang C. Xie ... Ming Li Jiannong Cao Yuan Xie Ngai Wong Hongxia Yang MQ 122 0 0 16 May 2025
Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models Annie Wong Thomas Bäck Aske Plaat Niki van Stein Anna V. Kononova ReLM ELM LRM 151 0 0 15 May 2025
Parallel Scaling Law for Language Models Mouxiang Chen Binyuan Hui Zeyu Cui Jiaxi Yang Dayiheng Liu Jianling Sun Junyang Lin Zhongxin Liu MoE LRM 102 2 0 15 May 2025
Superposition Yields Robust Neural Scaling Yizhou Liu Ziming Liu Jeff Gore MILM 142 1 0 15 May 2025
DRA-GRPO: Exploring Diversity-Aware Reward Adjustment for R1-Zero-Like Training of Large Language Models Xiwen Chen Wenhui Zhu Peijie Qiu Xuanzhao Dong Hao Wang Haiyu Wu Huayu Li Aristeidis Sotiras Yanjie Wang Abolfazl Razi ALM 157 0 0 14 May 2025
Learning Like Humans: Advancing LLM Reasoning Capabilities via Adaptive Difficulty Curriculum Learning and Expert-Guided Self-Reformulation Enci Zhang Xingang Yan Wei Lin Tianxiang Zhang Qianchun Lu LRM 89 0 0 13 May 2025
Stability in Single-Peaked Strategic Resource Selection Games Henri Zeiler 132 2 0 09 May 2025
Epistemic Artificial Intelligence is Essential for Machine Learning Models to Truly 'Know When They Do Not Know' Shireen Kudukkil Manchingal Andrew Bradley Julian F. P. Kooij Keivan K1 Shariatmadar Neil Yorke-Smith Fabio Cuzzolin 180 1 0 08 May 2025
Scalable Chain of Thoughts via Elastic Reasoning Yuhui Xu Hanze Dong Lei Wang Doyen Sahoo Junnan Li Caiming Xiong OffRL LRM 133 8 0 08 May 2025
ZeroSearch: Incentivize the Search Capability of LLMs without Searching Hao Sun Zile Qiao Jiayan Guo Xuanbo Fan Yingyan Hou Yong Jiang Pengjun Xie Yan Zhang Fei Huang Jingren Zhou OffRL 142 12 0 07 May 2025
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving Qi Liu Xinhao Zheng Renqiu Xia Xingzhi Qi Qinxiang Cao Junchi Yan AIMat 130 0 0 07 May 2025
Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL Jiarui Yao Yifan Hao Hanning Zhang Hanze Dong Wei Xiong Nan Jiang Tong Zhang LRM 168 2 0 05 May 2025
SAS-Prompt: Large Language Models as Numerical Optimizers for Robot Self-Improvement H. B. Amor L. Graesser Atil Iscen David B. DÁmbrosio Saminda Abeyruwan Alex Bewley Yifan Zhou Kamalesh Kalirathinam Swaroop Mishra Pannag R Sanketi LLMAG LM&Ro LRM 156 0 0 29 Apr 2025
Computational Reasoning of Large Language Models Haitao Wu Zongbo Han Joey Tianyi Zhou Huaxi Huang Changqing Zhang ELM LRM 108 0 0 29 Apr 2025
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren Liu Liu ... Jianfeng Gao Weizhu Chen Shuaiqiang Wang Simon Shaolei Du Yelong Shen OffRL ReLM LRM 349 47 0 29 Apr 2025
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets Adam Younsi Abdalgader Abubaker M. Seddik Hakim Hacid Salem Lahlou LRM 247 1 0 28 Apr 2025
Random-Set Large Language Models Muhammad Mubashar Shireen Kudukkil Manchingal Fabio Cuzzolin 146 2 0 25 Apr 2025
Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics Zena Al-Khalili Nick Howell Dietrich Klakow LRM 58 0 0 24 Apr 2025
Neural Theorem Proving: Generating and Structuring Proofs for Formal Verification Balaji Rao William Eiers Carlo Lipizzi 145 0 0 23 Apr 2025
Tina: Tiny Reasoning Models via LoRA Shangshang Wang Julian Asilis Ömer Faruk Akgül Enes Burak Bilgin Ollie Liu Willie Neiswanger OffRL LRM 144 9 0 22 Apr 2025
Synergistic Weak-Strong Collaboration by Aligning Preferences Yizhu Jiao Xuchao Zhang Zhaoyang Wang Yubo Ma Zhun Deng Rujia Wang Chetan Bansal Saravan Rajmohan Jiawei Han Huaxiu Yao 495 0 0 21 Apr 2025
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning Jie Cheng Ruixi Qiao Lijun Li Chao Guo Jianmin Wang Gang Xiong Yisheng Lv Fei-Yue Wang LRM 467 5 0 21 Apr 2025
Learning to Reason under Off-Policy Guidance Jianhao Yan Yafu Li Zican Hu Zhi Wang Ganqu Cui Xiaoye Qu Yu Cheng Yue Zhang OffRL LRM 191 17 0 21 Apr 2025
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Yang Yue Shiji Song Gao Huang ReLM LRM 238 128 0 18 Apr 2025
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce Wei Xiong Jiarui Yao Yuhui Xu Bo Pang Lei Wang ... Junnan Li Nan Jiang Tong Zhang Caiming Xiong Hanze Dong OffRL LRM 124 32 0 15 Apr 2025
A Short Survey on Small Reasoning Models: Training, Inference, Applications and Research Directions Chengyu Wang Taolin Zhang Richang Hong Jun Huang ReLM LRM 107 2 0 12 Apr 2025
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility Andreas Hochlehnert Hardik Bhatnagar Vishaal Udandarao Samuel Albanie Ameya Prabhu Matthias Bethge ReLM ALM LRM 240 26 0 09 Apr 2025
Physics-informed KAN PointNet: Deep learning for simultaneous solutions to inverse problems in incompressible flow on numerous irregular geometries Ali Kashefi T. Mukerji 3DPC PINN 109 0 0 08 Apr 2025
FEABench: Evaluating Language Models on Multiphysics Reasoning Ability N. Mudur Hao Cui Subhashini Venugopalan Paul Raccuglia M. Brenner Peter C. Norgaard LLMAG ELM LRM 85 1 0 08 Apr 2025
MultiClear: Multimodal Soft Exoskeleton Glove for Transparent Object Grasping Assistance Chen Hu Timothy Neate Shan Luo Letizia Gionfrida 108 12 0 04 Apr 2025
Do LLM Evaluators Prefer Themselves for a Reason? Wei-Lin Chen Zhepei Wei Xinyu Zhu Shi Feng Yu Meng ELM LRM 93 3 0 04 Apr 2025
MegaMath: Pushing the Limits of Open Math Corpora Fan Zhou Zengzhi Wang Nikhil Ranjan Zhoujun Cheng Liping Tang Guowei He Zhengzhong Liu Eric P. Xing LRM 139 3 0 03 Apr 2025
Adaptive Rectification Sampling for Test-Time Compute Scaling Zhendong Tan Xingjun Zhang Chaoyi Hu Yancheng Pan Shaoxun Wang LRM 128 2 0 02 Apr 2025