Title
LLM-Guided Search for Deletion-Correcting Codes Franziska Weindel Reinhard Heckel LRM 96 1 0 01 Apr 2025
R-PRM: Reasoning-Driven Process Reward Modeling Shuaijie She Junxiao Liu Yifeng Liu Jiajun Chen Xin Huang Shujian Huang LRM 112 6 0 27 Mar 2025
Understanding R1-Zero-Like Training: A Critical Perspective Zichen Liu Changyu Chen Wenjun Li Penghui Qi Tianyu Pang Chao Du Wee Sun Lee Min Lin OffRL LRM 237 172 0 26 Mar 2025
Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy Joonhyun Jeong Seyun Bae Yeonsung Jung Jaeryong Hwang Eunho Yang AAML 107 2 0 26 Mar 2025
Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators Seungone Kim Ian Wu Jinu Lee Xiang Yue Seongyun Lee ... Kiril Gashteovski Carolin (Haas) Lawrence Julia Hockenmaier Graham Neubig Sean Welleck LRM 105 5 0 25 Mar 2025
Scaling Laws of Synthetic Data for Language Models Zeyu Qin Qingxiu Dong Xingxing Zhang Li Dong Xiaolong Huang ... Hany Awadalla Yi R. Fung Weizhu Chen Minhao Cheng Furu Wei SyDa 144 7 0 25 Mar 2025
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild Weihao Zeng Yuzhen Huang Qian Liu Wei Liu Keqing He Zejun Ma Junxian He OffRL ReLM LRM 207 137 0 24 Mar 2025
A Survey on Mathematical Reasoning and Optimization with Large Language Models Ali Forootani OffRL LRM AI4CE 127 1 0 22 Mar 2025
FastCuRL: Curriculum Reinforcement Learning with Stage-wise Context Scaling for Efficient Training R1-like Reasoning Models Mingyang Song Mao Zheng Zheng Li Wenjie Yang Xuan Luo Yue Pan Feng Zhang ReLM LRM 187 7 0 21 Mar 2025
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't Quy-Anh Dang Chris Ngo OffRL LRM 192 20 0 20 Mar 2025
MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer Honglin Lin Zhuoshi Pan Yu Li Qizhi Pei Xin Gao Mengzhang Cai Zeang Sheng Lijun Wu OffRL LRM 97 1 0 19 Mar 2025
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems Felix Chen Hangjie Yuan Yunqiu Xu Tao Feng Jun Cen Pengwei Liu Zeying Huang Yi Yang LRM 105 1 0 19 Mar 2025
Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs Nicolas Le Roux Marc G. Bellemare Jonathan Lebensold Arnaud Bergeron Joshua Greaves Alex Fréchette Carolyne Pelletier Eric Thibodeau-Laufer Sándor Toth Sam Work OffRL 183 6 0 18 Mar 2025
Measuring In-Context Computation Complexity via Hidden State Prediction Vincent Herrmann Róbert Csordás Jürgen Schmidhuber 88 0 0 17 Mar 2025
Pensez: Less Data, Better Reasoning -- Rethinking French LLM Huy Hoang Ha ReLM LRM 96 1 0 17 Mar 2025
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty? Giacomo Camposampiero Michael Hersche Roger Wattenhofer Abu Sebastian Abbas Rahimi LRM 111 2 0 14 Mar 2025
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding Ayesha Ishaq Jean Lahoud Ketan More Omkar Thawakar Ritesh Thawkar ... Fahad Shahbaz Khan Hisham Cholakkal Ivan Laptev Rao Muhammad Anwer Salman Khan LRM 127 4 0 13 Mar 2025
Numerical Error Analysis of Large Language Models Stanislav Budzinskiy Wenyi Fang Longbin Zeng Philipp Petersen 92 1 0 13 Mar 2025
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM Kshitij Ambilduke Ben Peters Sonal Sannigrahi Anil Keshwani Tsz Kin Lam Bruno Martins Marcely Zanon Boito André F. T. Martins 114 2 0 13 Mar 2025
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning Bo Liu Yunxiang Li Yangqiu Song Hanjing Wang Linyi Yang ... Jun Wang Jun Wang Weinan Zhang Shuyue Hu Ying Wen LLMAG KELM LRM AI4CE 134 11 0 12 Mar 2025
Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study Wei Wei Yue-Jiao Gong Jun Zhang 105 0 0 11 Mar 2025
Self-Corrective Task Planning by Inverse Prompting with Large Language Models Jiho Lee Hayun Lee Jonghyeon Kim Kyungjae Lee Eunwoo Kim LRM 117 0 0 10 Mar 2025
Seeing Delta Parameters as JPEG Images: Data-Free Delta Compression with Discrete Cosine Transform Chenyu Huang Peng Ye Xinyu Wang Shenghe Zheng Biqing Qi Lei Bai Wanli Ouyang Tao Chen 63 2 0 09 Mar 2025
InfoSEM: A Deep Generative Model with Informative Priors for Gene Regulatory Network Inference Tianyu Cui Song-Jun Xu Artem Moskalev Shuwei Li Tommaso Mansi Mangal Prakash Rui Liao BDL 189 2 0 06 Mar 2025
BOSE: A Systematic Evaluation Method Optimized for Base Models Hongzhi Luan Changxin Tian Zhaoxin Huan Xiaolu Zhang Kunlong Chen Qing Cui Zhiqiang Zhang 93 1 0 02 Mar 2025
Shifting Power: Leveraging LLMs to Simulate Human Aversion in ABMs of Bilateral Financial Exchanges, A bond market study Alicia Vidler Toby Walsh 66 0 0 01 Mar 2025
Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers Shalev Lifshitz Sheila A. McIlraith Yilun Du LRM 138 8 0 27 Feb 2025
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs Dayu Yang Tianyang Liu Daoan Zhang Antoine Simoulin Xiaoyi Liu ... Zhaopu Teng Xin Qian Grey Yang Jiebo Luo Julian McAuley ReLM OffRL LRM 158 12 0 26 Feb 2025
Self-rewarding correction for mathematical reasoning Wei Xiong Hanning Zhang Chenlu Ye Lichang Chen Nan Jiang Tong Zhang ReLM KELM LRM 166 22 0 26 Feb 2025
Predicting Through Generation: Why Generation Is Better for Prediction Md. Kowsher Nusrat Jahan Prottasha Prakash Bhat Chun-Nam Yu Mojtaba Soltanalian Ivan Garibay O. Garibay Chen Chen Niloofar Yousefi AI4TS 246 1 0 25 Feb 2025
LLM Knows Geometry Better than Algebra: Numerical Understanding of LLM-Based Agents in A Trading Arena Tianmi Ma Jiawei Du Wenxin Huang Wenjie Wang Liang Xie Xian Zhong Qiufeng Wang 116 3 0 25 Feb 2025
The Role of Sparsity for Length Generalization in Transformers Noah Golowich Samy Jelassi David Brandfonbrener Sham Kakade Eran Malach 90 0 0 24 Feb 2025
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning Guijin Son Jiwoo Hong Hyunwoo Ko James Thorne LRM 126 10 0 24 Feb 2025
A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics Ting-Ruen Wei Haowei Liu Xuyang Wu Yi Fang LRM AI4CE ReLM KELM 414 3 0 21 Feb 2025
PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery Bowei He Lihao Yin Hui-Ling Zhen Xiaokun Zhang Mingxuan Yuan Chen Ma 181 0 0 18 Feb 2025
Self-Supervised Transformers as Iterative Solution Improvers for Constraint Satisfaction Yudong Xu Wenhao Li Scott Sanner Elias Boutros Khalil 108 0 0 18 Feb 2025
Lean-ing on Quality: How High-Quality Data Beats Diverse Multilingual Data in AutoFormalization Willy Chan Michael Souliman Jakob Nordhagen Alycia Lee Elyas Obbad Kai Fronsdal Sanmi Koyejo 64 0 0 18 Feb 2025
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving Xin Xu Yan Xu Tianhao Chen Yuchen Yan Chengwu Liu ... Yansen Wang Yichun Yin Yijiao Wang Lifeng Shang Qiang Liu LRM 183 3 0 17 Feb 2025
Explanation based In-Context Demonstrations Retrieval for Multilingual Grammatical Error Correction Wei Li Wen Luo Guangyue Peng Houfeng Wang 181 0 0 12 Feb 2025
Are Language Models Up to Sequential Optimization Problems? From Evaluation to a Hegelian-Inspired Enhancement Soheil Abbasloo LRM 74 0 0 04 Feb 2025
Process Reinforcement through Implicit Rewards Ganqu Cui Lifan Yuan Ziyi Wang Hanbin Wang Wendi Li ... Yu Cheng Zhiyuan Liu Maosong Sun Bowen Zhou Ning Ding OffRL LRM 197 103 0 03 Feb 2025
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models Xin Xu Qiyun Xu Tong Xiao Tianhao Chen Yuchen Yan Jiaxin Zhang Shizhe Diao Can Yang Yang Wang LRM AI4CE ELM 285 8 0 01 Feb 2025
Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving Evgenii Evstafev CLL LRM 98 1 0 28 Jan 2025
FOCUS: First Order Concentrated Updating Scheme Yizhou Liu Ziming Liu Jeff Gore ODL 188 2 0 21 Jan 2025
T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling Zhenyu Hou Xin Lv Rui Lu Jing Zhang Yongqian Li Zijun Yao Juanzi Li J. Tang Yuxiao Dong OffRL LRM ReLM 153 33 0 20 Jan 2025
Boosting of Thoughts: Trial-and-Error Problem Solving with Large Language Models Sijia Chen Baochun Li Di Niu LLMAG LRM AI4CE 128 14 0 08 Jan 2025
Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning Zhen Li Yupeng Su Runming Yang C. Xie Zehua Wang Zhongwei Xie Ngai Wong Hongxia Yang MQ LRM 186 4 0 06 Jan 2025
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning Beichen Zhang Yuhong Liu Xiaoyi Dong Yuhang Zang Pan Zhang Haodong Duan Yuhang Cao Dahua Lin Jinqiao Wang LRM ReLM 162 6 0 06 Jan 2025
Mathematical Language Models: A Survey Wen Liu Hanglei Hu Jie Zhou Yuyang Ding Junsong Li ... Mengliang He Qin Chen Bo Jiang Aimin Zhou Liang He LRM 237 14 0 03 Jan 2025
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling Bradley Brown Jordan Juravsky Ryan Ehrlich Ronald Clark Quoc V. Le Christopher Ré Azalia Mirhoseini ALM LRM 317 331 0 03 Jan 2025