Offline Reinforcement Learning

OffRL

Offline Reinforcement Learning focuses on learning policies from previously collected data without further interaction with the environment.

Neighbor communities

51015

Featured Papers

0 / 0 papers shown

All papers

50 / 10,421 papers shown

Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training Yaxuan Li Zhongyi Zhou Yefei Chen Yanjiang Guo Jiaming Liu Shanghang Zhang Jianyu Chen Yichen Zhu OffRL VLM 2 0 0 23 Apr 2026
AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use Yuanjie Lyu Chengyu Wang Haonan Zheng Yuanhao Yue Junbing Yan Ming Wang Jun Huang OffRL SyDa LRM AI4CE 4 0 0 23 Apr 2026
V-tableR1: Process-Supervised Multimodal Table Reasoning with Critic-Guided Policy Optimization Yubo Jiang Yitong An Xin Yang Abudukelimu Wuerkaixi Xuxin Cheng Fengying Xie Zhiguo Jiang Cao Liu Ke Zeng Haopeng Zhang OffRL LMTD LRM 7 0 0 22 Apr 2026
GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision for Effective Reasoning Jingyi Wang Lei Zhu Tengjin Weng Song-Li Wu Haochen Tan ... Chaofan Tao Haoli Bai Lu Hou Lifeng Shang Xiao-Ping Zhang OffRL LRM 7 0 0 22 Apr 2026
Occupancy Reward Shaping: Improving Credit Assignment for Offline Goal-Conditioned Reinforcement Learning Aravind Venugopal Jiayu Chen Xudong Wu Chongyi Zheng Benjamin Eysenbach Jeff Schneider OffRL 4 0 0 22 Apr 2026
Explicit Dropout: Deterministic Regularization for Transformer Architectures Vidhi Agrawal Illia Oleksiienko Alexandros Iosifidis OffRL 5 0 0 22 Apr 2026
Data-Driven Open-Loop Simulation for Digital-Twin Operator Decision Support in Wastewater Treatment Gary Simethy Daniel Ortiz Arroyo Petar Durdevic OffRL 2 0 0 22 Apr 2026
Knowledge Capsules: Structured Nonparametric Memory Units for LLMs Bin Ju Shenfeng Weng Danying Zhou Rongkai Xu Kunkai Su KELM RALM OffRL 4 0 0 22 Apr 2026
Lever: Inference-Time Policy Reuse under Support Constraints Ihor Vitenki Noha Ibrahim Sihem Amer-Yahia OffRL 4 0 0 22 Apr 2026
Efficient Reinforcement Learning using Linear Koopman Dynamics for Nonlinear Robotic Systems Wenjian Hao Yuxuan Fang Zehui Lu Shaoshuai Mou OffRL 5 0 0 21 Apr 2026
Visual Reasoning through Tool-supervised Reinforcement Learning Qihua Dong Gozde Sahin Pei Wang Zhaowei Cai Robik Shrestha Hao Yang Davide Modolo OffRL LRM 6 0 0 21 Apr 2026
DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data Venus Team Sunhao Dai Yong Deng Jinzhen Lin Yusheng Song ... Shuo Yang Zhenzhe Ying Zhanwei Zhang Changhua Meng Weiqiang Wang OffRL 5 0 0 21 Apr 2026
FASTER: Value-Guided Sampling for Fast RL Perry Dong Alexander Swerdlow Dorsa Sadigh Chelsea Finn OffRL 16 0 0 21 Apr 2026
Multi-modal Reasoning with LLMs for Visual Semantic Arithmetic Chuou Xu Liya Ji Qifeng Chen OffRL ReLM LRM 15 0 0 21 Apr 2026
Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization Andrei Andrusenko Vladimir Bataev Lilit Grigoryan Nune Tadevosyan Vitaly Lavrukhin Boris Ginsburg OffRL 9 0 0 21 Apr 2026
Decompose, Structure, and Repair: A Neuro-Symbolic Framework for Autoformalization via Operator Trees Xiaoyang Liu Zineng Dong Yifan Bai Yantao Li Yuntian Liu Tao Luo NAI OffRL AI4CE 9 0 0 21 Apr 2026
Low-Rank Adaptation for Critic Learning in Off-Policy Reinforcement Learning Yuan Zhuang Yuexin Bian Sihong He Jie Feng Qing Su Songyang Han Jonathan Petit Shihao Ji Yuanyuan Shi Fei Miao OffRL 8 0 0 21 Apr 2026
Beyond Bellman: High-Order Generator Regression for Continuous-Time Policy Evaluation Yaowei Zheng Richong Zhang Shenxi Wu Shirui Bian Haosong Zhang Li Zeng Xingjian Ma Yichi Zhang OffRL 8 0 0 21 Apr 2026
OGER: A Robust Offline-Guided Exploration Reward for Hybrid Reinforcement Learning Xinyu Ma Mingzhou Xu Xuebo Liu Chang Jin Qiang Wang Derek F. Wong Min Zhang OffRL LRM 21 0 0 20 Apr 2026
Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data Zhenwen Liang Yujun Zhou Sidi Lu Xiangliang Zhang Haitao Mi Dong Yu ReLM OffRL LRM ELM 16 0 0 20 Apr 2026
OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation Jinghui Lu Jiayi Guan Zhijian Huang Jinlong Li Guang Li ... Naiyang Wang Guang Chen Kuiyuan Yang Hangjun Ye Long Chen OffRL LRM 19 0 0 20 Apr 2026
Train Separately, Merge Together: Modular Post-Training with Mixture-of-Experts Jacob Morrison Sanjay Adhikesaven Akshita Bhagia Matei Zaharia Noah A. Smith Sewon Min MoMe MoE OffRL CLL KELM LRM 33 0 0 20 Apr 2026
Progressive Online Video Understanding with Evidence-Aligned Timing and Transparent Decisions Kecheng Zhang Zongxin Yang Mingfei Han Haihong Hao Yunzhi Zhuge Changlin Li Junhan Zhao Zhihui Li Xiaojun Chang OffRL 14 0 0 20 Apr 2026
Learning from Less: Measuring the Effectiveness of RLVR in Low Data and Compute Regimes Justin Bauer Thomas Walshe Derek Pham Harit Vishwakarma Armin Parchami Frederic Sala Paroma Varma OffRL 9 0 0 20 Apr 2026
Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models Xiang He Chenxing Li Jinting Wang Yan Rong Tianxin Xie Wenfu Wang Li Liu Dong Yu AuLLM OffRL ReLM LRM AI4CE 18 0 0 20 Apr 2026
Distributional Off-Policy Evaluation with Deep Quantile Process Regression Qi Kuang Chao Wang Yuling Jiao Fan Zhou OffRL 12 0 0 20 Apr 2026
LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent Wanli Li Bince Qu Bo Pan Jianyu Zhang Zheng Liu Pan Zhang Wei Chen Bo Zhang OffRL 9 0 0 20 Apr 2026
Fisher Decorator: Refining Flow Policy via A Local Transport Map Xiaoyuan Cheng Haoyu Wang Wenxuan Yuan Ziyan Wang Zonghao Chen Li Zeng Zhuo Sun OffRL 9 0 0 20 Apr 2026
LEPO: Latent Reasoning Policy Optimization for Large Language Models Yuyan Zhou Jiarui Yu Hande Dong Zhezheng Hao Hong Wang Jianqing Zhang Qiang Lin BDL OffRL LRM 19 0 0 20 Apr 2026
Tool Learning Needs Nothing More Than a Free 8B Language Model Chenming Tang Hsiu-Yuan Huang Weijie Liu Junqiang Zheng Saiyong Yang Yunfang Wu LLMAG OffRL 16 0 0 20 Apr 2026
A Survey of Reinforcement Learning for Large Language Models under Data Scarcity: Challenges and Solutions Zhiyin Yu Yuchen Mou Juncheng Yan Junyu Luo Chunchun Chen ... Guanjie Zheng Zhonghai Wu Bo Zhang Lei Bai Xiao Luo OffRL LRM 11 0 0 19 Apr 2026
EasyVideoR1: Easier RL for Video Understanding Chuanyu Qin Chenxu Yang Qingyi Si Naibin Gu Dingyu Yao Zheng Lin Peng Fu Nan Duan Jiaqi Wang OffRL VLM 15 0 0 18 Apr 2026
AutoOR: Scalably Post-training LLMs to Autoformalize Operations Research Problems Sumeet Ramesh Motwani Chuan Du Aleksander Petrov Christopher Davis Philip Torr Antonio Papania-Davis Weishi Yan OffRL AI4CE 11 0 0 18 Apr 2026
LongBench: Evaluating Robotic Manipulation Policies on Real-World Long-Horizon Tasks Xueyao Chen Jingkai Jia Tong Yang Yibo Fu Wei Li Wenqiang Zhang OffRL 9 0 0 18 Apr 2026
DARLING: Detection Augmented Reinforcement Learning with Non-Stationary Guarantees Argyrios Gerogiannis Yu-Han Huang Venugopal V. Veeravalli OffRL 13 0 0 17 Apr 2026
Find, Fix, Reason: Context Repair for Video Reasoning Haojian Huang Chuanyu Qin Yinchuan Li Yingcong Chen OffRL KELM LRM 26 0 0 17 Apr 2026
Multi-objective Reinforcement Learning With Augmented States Requires Rewards After Deployment Peter Vamplew Cameron Foale OffRL 12 0 0 17 Apr 2026
Reward Weighted Classifier-Free Guidance as Policy Improvement in Autoregressive Models Alexander Peysakhovich William Berman OffRL 15 0 0 16 Apr 2026
Beyond Single-Model Optimization: Preserving Plasticity in Continual Reinforcement Learning Lute Lillo Nick Cheney CLL MoMe KELM OffRL 30 0 0 16 Apr 2026
Meituan Merchant Business Diagnosis via Policy-Guided Dual-Process User Simulation Ziyang Chen Renbing Chen Daowei Li Jinzhi Liao Jiashen Sun Ke Zeng Xiang Zhao OffRL 40 0 0 16 Apr 2026
LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning Bowen Ping Zijun Chen Tingfeng Hui Qize Yu Chenxuan Li Junchi Yan Baobao Chang OffRL KELM LLMSV 25 0 0 16 Apr 2026
Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models Yifu Chen Shengpeng Ji Zhengqing Liu Qian Chen Wen Wang Ziqing Wang Yangzhuo Li Tianle Liang Zhou Zhao OffRL 24 0 0 16 Apr 2026
Well Begun is Half Done: Training-Free and Model-Agnostic Semantically Guaranteed User Representation Initialization for Multimodal Recommendation Jinfeng Xu Zheyu Chen Shuo Yang Jinze Li Hewei Wang Jianheng Tang Wei Wang Xiping Hu Edith C. H. Ngai CLL OffRL AI4CE 29 0 0 16 Apr 2026
RELOAD: A Robust and Efficient Learned Query Optimizer for Database Systems Seokwon Lee Jaeyoung Sim Sihyun Kim Yuhsing Li Yiwen Zhu Kwanghyun Park OffRL 16 0 0 16 Apr 2026
StoryCoder: Narrative Reformulation for Structured Reasoning in LLM Code Generation Geonhui Jang Dongyoon Han YoungJoon Yoo OffRL LRM 36 0 0 16 Apr 2026
From $P(y\|x)$ to $P(y)$ : Investigating Reinforcement Learning in Pre-train Space Yuqiao Tan Minzheng Wang Bo Liu Zichen Liu Tian Liang Shizhu He Jun Zhao Kang Liu OffRL OnRL LRM 38 0 0 15 Apr 2026
Provably Efficient Offline-to-Online Value Adaptation with General Function Approximation Shangzhe Li Weitong Zhang OffRL OnRL 21 0 0 15 Apr 2026
Beyond State Consistency: Behavior Consistency in Text-Based World Models Youling Huang Guanqiao Chen Junchi Yao Lu Wang Fangkai Yang ... ChenZhuo Zhao Pu Zhao Qingwei Lin Saravan Rajmohan Dongmei Zhang OffRL 20 0 0 15 Apr 2026
A Formal Framework for Critical-Mass Collapse in Online Multiplayer Games Ahmed Sheta OffRL AI4CE 27 0 0 15 Apr 2026
Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization Shiping Gao Hongzhan Chen Xiaojun Quan Qifan Wang Lifu Huang OffRL LRM 28 0 0 14 Apr 2026

Loading #Papers per Month with "OffRL"

Past speakers

Name (-)

Top Contributors

Name (-)

Top Organizations at ResearchTrend.AI

Name (-)

Social Events

Date	Location	Event
No social events available