Title
Reinforcement Learning Teachers of Test Time Scaling Edoardo Cetin Tianyu Zhao Yujin Tang OffRL ReLM LRM 43 0 0 10 Jun 2025
EPiC: Towards Lossless Speedup for Reasoning Training through Edge-Preserving CoT Condensation Jinghan Jia Hadi Reisizadeh Chongyu Fan Nathalie Baracaldo Mingyi Hong Sijia Liu LRM 131 0 0 04 Jun 2025
VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning Hao Yan Handong Zheng Hao Wang Liang Yin Xingchen Liu ... Minghui Liao Chao Weng Wei Chen Yuliang Liu Xiang Bai LRM 47 0 0 03 Jun 2025
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL Hyungjoo Chae Dongjin Kang J. Kim Beong-woo Kwak Sunghyun Park Haeju Park Jinyoung Yeo M. Lee Kyungjae Lee ReLM LRM 36 0 0 03 Jun 2025
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection Zeyi Huang Zeyi Huang Anirudh Sundara Rajan Zefan Cai Wen Xiao Junjie Hu Yong Jae Lee 72 0 0 26 May 2025
Large Language Models as Computable Approximations to Solomonoff Induction Jun Wan Lingrui Mei 67 0 0 21 May 2025
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space Hengli Li Chenxi Li Tong Wu Xuekai Zhu Yuxuan Wang ... Eric Hanchen Jiang Song-Chun Zhu Zixia Jia Ying Nian Wu Zilong Zheng LRM 119 1 0 19 May 2025
a1: Steep Test-time Scaling Law via Environment Augmented Generation Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Yuyao Ge Jun Wan Yurong Wu Xueqi Cheng LRM 85 3 0 20 Apr 2025
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning FangZhi Xu Hang Yan Chang Ma Haiteng Zhao Qiushi Sun Kanzhi Cheng Junxian He Jun Liu Zhiyong Wu LRM 71 5 0 11 Apr 2025
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining Rosie Zhao Alexandru Meterez Sham Kakade Cengiz Pehlevan Samy Jelassi Eran Malach ReLM LRM 369 20 0 10 Apr 2025
Style over Substance: Distilled Language Models Reason Via Stylistic Replication Philip Lippmann Jie Yang LRM 153 0 0 02 Apr 2025
Efficient Inference for Large Reasoning Models: A Survey Yi Liu Jiaying Wu Yufei He Hongcheng Gao Hongyu Chen Baolong Bi Jiaheng Zhang Zhiqi Huang Bryan Hooi Bryan Hooi LLMAG LRM 167 17 0 29 Mar 2025
ReFeed: Multi-dimensional Summarization Refinement with Reflective Reasoning on Feedback Taewon Yun Jihwan Oh Hyangsuk Min Yuho Lee Jihwan Bang Jason (Jinglun) Cai Hwanjun Song OffRL LRM 103 0 0 27 Mar 2025
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks Weinan Zhang Mengna Wang Gangao Liu Xu Huixin Yiwei Jiang ... Hang Zhang Xin Li Weiming Lu Peng Li Yueting Zhuang LM&Ro LRM 188 9 0 27 Mar 2025
ThinkPatterns-21k: A Systematic Study on the Impact of Thinking Patterns in LLMs Pengcheng Wen Yalan Qin Chi-Min Chan Juntao Dai Chongye Guo Yaodong Yang Sirui Han Yike Guo LLMAG LRM 113 3 0 17 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Yansen Wang Shengqiong Wu Yize Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 208 31 0 16 Mar 2025
Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering Xinyu Tang Xiaolei Wang Zhihao Lv Yingqian Min Wayne Xin Zhao Binbin Hu Ziqi Liu Qing Cui LRM 148 9 0 14 Mar 2025
Theoretical Physics Benchmark (TPBench) -- a Dataset and Study of AI Reasoning Capabilities in Theoretical Physics Daniel J.H. Chung Zhiqi Gao Yurii Kvasiuk Tianyi Li Moritz Münchmeyer Maja Rudolph Frederic Sala Sai Chaitanya Tadepalli AIMat 93 7 0 19 Feb 2025