Title
Reasoning BO: Enhancing Bayesian Optimization with Long-Context Reasoning Power of LLMs Zhuo Yang Lingli Ge Dong Han Tianfan Fu Yuqiang Li 9 0 0 19 May 2025
MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO Yicheng Xiao Lin Song Yukang Chen Yingmin Luo Y. Chen Yukang Gan Wei Huang Xiu Li Xiaojuan Qi Ying Shan LRM 7 0 0 19 May 2025
BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation Haiquan Wen Yiwei He Zhenglin Huang Tianxiao Li Zihan YU Xingru Huang Lu Qi Baoyuan Wu X. Li Guangliang Cheng VGen 2 0 0 19 May 2025
Detection and Mitigation of Hallucination in Large Reasoning Models: A Mechanistic Perspective Zhongxiang Sun Qipeng Wang Haoyu Wang Xiao Zhang Jun Xu HILM LRM 7 0 0 19 May 2025
Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought Hanlin Zhu Shibo Hao Zhiting Hu Jiantao Jiao Stuart Russell Yuandong Tian OffRL LRM 2 0 0 18 May 2025
Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward Han Weng Boyi Liu Yuanfeng Song Dun Zeng Yingxiang Yang Yi Zhan Longjie Cui Xiaoming Yin Yang Sun 2 0 0 18 May 2025
UFO-RL: Uncertainty-Focused Optimization for Efficient Reinforcement Learning Data Selection Yang Zhao Kai Xiong Xiao Ding Li Du YangouOuyang ... Wenbin Zhang Bin Liu Dong Hu Bing Qin Ting Liu OffRL 2 0 0 18 May 2025
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages Zhongqi Wang Jiaqi Zeng Olivier Delalleau Hoo-Chang Shin Felipe Soares Alexander Bukharin Ellie Evans Yi Dong Oleksii Kuchaiev 22 0 0 16 May 2025
BLEUBERI: BLEU is a surprisingly effective reward for instruction following Yapei Chang Yekyung Kim Michael Krumdick Amir Zadeh Chuan Li Chris Tanner Mohit Iyyer ALM 22 0 0 16 May 2025
Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL Songjun Tu Jiahao Lin Qichao Zhang Xiangyu Tian Linjing Li Xiangyuan Lan Dongbin Zhao OffRL ReLM LRM 21 0 0 16 May 2025
Beyond Áha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models Zhiyuan Hu Yali Wang Hanze Dong Yuhui Xu Amrita Saha Caiming Xiong Bryan Hooi Junnan Li LRM 24 0 0 15 May 2025
Qwen3 Technical Report An Yang A. Li Baosong Yang Beichen Zhang Binyuan Hui ... Zekun Wang Zeyu Cui Zhenru Zhang Zhenhong Zhou Zihan Qiu LLMAG OSLM LRM 42 0 0 14 May 2025
Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput Bo Zhang Shuo Li Runhe Tian Yang Yang Jixin Tang Jinhao Zhou Lin Ma VLM 30 0 0 14 May 2025
Fast Text-to-Audio Generation with Adversarial Post-Training Zachary Novack Zach Evans Zack Zukowski Josiah Taylor CJ Carr ... Adnan Al-Sinan Gian Marco Iodice Julian McAuley Taylor Berg-Kirkpatrick Jordi Pons 30 0 0 13 May 2025
Large Language Models for Computer-Aided Design: A Survey Licheng Zhang Bach Le Naveed Akhtar Siew-Kei Lam Tuan Ngo 3DV AI4CE 38 0 0 13 May 2025
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning Zhaochen Su Linjie Li Mingyang Song Yunzhuo Hao Zhengyuan Yang ... Guanjie Chen Jiawei Gu Juntao Li Xiaoye Qu Yu Cheng OffRL LRM 31 0 0 13 May 2025
DanceGRPO: Unleashing GRPO on Visual Generation Zeyue Xue Jie Wu Yu Gao Fangyuan Kong Lingting Zhu ... Zhiheng Liu Wei Liu Qiushan Guo Weilin Huang Ping Luo EGVM VGen 52 0 0 12 May 2025
xGen-small Technical Report Erik Nijkamp Bo Pang Egor Pakhomov Akash Gokul Jin Qu Silvio Savarese Yingbo Zhou Caiming Xiong LLMAG 58 0 0 10 May 2025
Flow-GRPO: Training Flow Matching Models via Online RL Jie Liu Gongye Liu Jiajun Liang Yong Li Jiaheng Liu Xueliang Wang Pengfei Wan Di Zhang Wanli Ouyang AI4CE 68 0 0 08 May 2025
Scalable Chain of Thoughts via Elastic Reasoning Yuhui Xu Hanze Dong Lei Wang Doyen Sahoo Junnan Li Caiming Xiong OffRL LRM 51 2 0 08 May 2025
DMRL: Data- and Model-aware Reward Learning for Data Extraction Zhiqiang Wang Ruoxi Cheng 31 0 0 07 May 2025
ZeroSearch: Incentivize the Search Capability of LLMs without Searching Hao Sun Zile Qiao Jiayan Guo Xuanbo Fan Yingyan Hou Yong Jiang Pengjun Xie Yan Zhang Fei Huang Jingren Zhou OffRL 61 2 0 07 May 2025
EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning Zhenghao Xing Xiaowei Hu Chi-Wing Fu Wei Wang Jifeng Dai Pheng-Ann Heng MLLM OffRL VLM LRM 50 0 0 07 May 2025
RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning Liam Boyle Nicolas Baumann Paviththiren Sivasothilingam Michele Magno Luca Benini LM&Ro LRM 51 0 0 06 May 2025
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning Yibin Wang Zhimin Li Yuhang Zang Chunyu Wang Qinglin Lu Cheng Jin J. T. Wang LRM 48 0 0 06 May 2025
RIFT: Closed-Loop RL Fine-Tuning for Realistic and Controllable Traffic Simulation Keyu Chen Wenchao Sun Hao Cheng Sifa Zheng 52 0 0 06 May 2025
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning Yi-Fan Zhang Xingyu Lu X. Hu Chaoyou Fu Bin Wen ... Jianfei Chen Fan Yang Z. Zhang Tingting Gao Liang Wang OffRL LRM 43 0 0 05 May 2025
RM-R1: Reward Modeling as Reasoning Xiusi Chen Gaotang Li Zehua Wang Bowen Jin Cheng Qian ... Y. Zhang D. Zhang Tong Zhang Hanghang Tong Heng Ji ReLM OffRL LRM 171 1 0 05 May 2025
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 72 1 0 05 May 2025
Bielik v3 Small: Technical Report Krzysztof Ociepa Łukasz Flis Remigiusz Kinas Krzysztof Wróbel Adrian Gwoździej 27 0 0 05 May 2025
Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL Jiarui Yao Yifan Hao Hanning Zhang Hanze Dong Wei Xiong Nan Jiang Tong Zhang LRM 62 0 0 05 May 2025
Enhancing LLMs' Clinical Reasoning with Real-World Data from a Nationwide Sepsis Registry J. Kim Chaeeun Shim Sungjin Park Su Yeon Lee Gee Young Suh ... Yong Soo Kim Hee-Joon Bae Sung Yoon Lim Han-Gil Jeong Edward Choi LRM 48 0 0 05 May 2025
Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study Xiaoyu Tian Sitong Zhao Haotian Wang Shuaiting Chen Yiping Peng Yunjie Ji Han Zhao Xiangang Li OffRL LRM 37 0 0 04 May 2025
Adaptive Thinking via Mode Policy Optimization for Social Language Agents Minzheng Wang You Li Haozhao Wang Xinghua Zhang Nan Xu Bingli Wu Fei Huang Haiyang Yu Wenji Mao LLMAG LRM 43 1 0 04 May 2025
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding Zongxia Li Xiyang Wu Guangyao Shi Yubin Qin Hongyang Du Tianyi Zhou Dinesh Manocha Jordan Lee Boyd-Graber MLLM 57 0 0 02 May 2025
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT D. Jiang Ziyu Guo Renrui Zhang Zhuofan Zong Hao Li Le Zhuo Shilin Yan Pheng-Ann Heng Yiming Li LRM 72 2 0 01 May 2025
Phi-4-reasoning Technical Report Marah Abdin Sahaj Agarwal Ahmed Hassan Awadallah Vidhisha Balachandran Harkirat Singh Behl ... Vaishnavi Shrivastava Vibhav Vineet Yue Wu Safoora Yousefi Guoqing Zheng ReLM LRM 87 1 0 30 Apr 2025
ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning Jingyang Yi Jiazheng Wang Sida Li ReLM OODD LRM 150 2 0 30 Apr 2025
Token-Efficient RL for LLM Reasoning Alan Lee Harry Tong OffRL 133 0 0 29 Apr 2025
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think Hasan Hammoud Hani Itani Guohao Li ReLM LRM 80 1 0 29 Apr 2025
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren L. Liu ... Jianfeng Gao Weizhu Chen S. Wang Simon S. Du Yelong Shen OffRL ReLM LRM 120 5 0 29 Apr 2025
GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets Mingqian He Fei Zhao Chonggang Lu Ziqiang Liu Yishuo Wang Haofu Qian OffRL AI4TS VLM 72 0 0 28 Apr 2025
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning Joykirat Singh Raghav Magazine Yash Pandya A. Nambi LLMAG KELM OffRL LRM 147 2 0 28 Apr 2025
LR-IAD:Mask-Free Industrial Anomaly Detection with Logical Reasoning Peijian Zeng Feiyan Pang Zhanbo Wang Aimin Yang 74 0 0 28 Apr 2025
Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report Paul Kassianik Baturay Saglam Alexander Chen Blaine Nelson Anu Vellore ... Hyrum Anderson Kojin Oshiba Omar Santos Yaron Singer Amin Karbasi PILM 63 0 0 28 Apr 2025
Pushing the boundary on Natural Language Inference Pablo Miralles-González Javier Huertas-Tato Alejandro Martín David Camacho LRM 44 0 0 25 Apr 2025
Fast-Slow Thinking for Large Vision-Language Model Reasoning W. L. Xiao Leilei Gan Weilong Dai Wanggui He Ziwei Huang ... Fangxun Shu Zhelun Yu Peng Zhang Hao Jiang Fei Wu ReLM LRM AI4CE 170 1 0 25 Apr 2025
Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning Shaokun Zhang Yi Dong Jieyu Zhang Jan Kautz Bryan Catanzaro Andrew Tao Qingyun Wu Zhiding Yu Guilin Liu LLMAG OffRL KELM LRM 88 0 0 25 Apr 2025
DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training Xiaoyu Tian Sitong Zhao Haotian Wang Shuaiting Chen Yiping Peng Yunjie Ji Han Zhao Xiangang Li LRM 57 1 0 24 Apr 2025
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning Zihan Wang Kaidi Wang Q. Wang Pingyue Zhang Linjie Li ... Jiajun Wu L. Fei-Fei Lijuan Wang Yejin Choi Manling Li 89 4 0 24 Apr 2025