Online Reinforcement Learning

OnRL

Online Reinforcement Learning involves learning policies through continuous interaction with the environment, adapting to changes in real-time.

Neighbor communities

51015

Featured Papers

0 / 0 papers shown

All papers

50 / 738 papers shown

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang ... Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao Jian Zhang Venkat Srinivasan OnRL 0 0 0 22 Mar 2026
Prompt replay: speeding up grpo with on-policy reuse of high-signal prompts Andrei Baroian Rutger Berger OffRL OnRL LRM 1 0 0 22 Mar 2026
Restoring Neural Network Plasticity for Faster Transfer Learning Xander Coetzer Arné Schreuder Anna Sergeevna Bosman OnRL AI4CE 0 0 0 21 Mar 2026
Just-in-Time Resale in an Ahead-of-Time Auction: An Event Study Burak Öz Christoph Schlegel Akaki Mamageishvili OnRL 2 0 0 20 Mar 2026
Escaping Offline Pessimism: Vector-Field Reward Shaping for Safe Frontier Exploration Amirhossein Roknilamouki Arnob Ghosh Eylem Ekici Ness B. Shroff OffRL OnRL 9 0 0 18 Mar 2026
What if Pinocchio Were a Reinforcement Learning Agent: A Normative End-to-End Pipeline Benoît Alcaraz AI4TS OnRL AI4CE 17 0 0 17 Mar 2026
Faulty Coffees: Barriers to Adoption of an In-the-wild Robo-Barista Bruce W. Wilson David A. Robb Mei Yii Lim Helen Hastie Matthew Peter Aylett Theodoros Georgiou LM&Ro OnRL 15 0 0 17 Mar 2026
Noisy Data is Destructive to Reinforcement Learning with Verifiable Rewards Yuxuan Zhu Daniel Kang NoLa OnRL 16 0 0 17 Mar 2026
The Internet of Physical AI Agents: Interoperability, Longevity, and the Cost of Getting It Wrong Roberto Morabito Mallik Tatipamula OnRL AI4CE 10 0 0 16 Mar 2026
Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies Mumuksh Tayal Manan Tayal Ravi Prakash OffRL OnRL 15 0 0 16 Mar 2026
Bots and Blocks: Presenting a project-based approach for robotics education Tobias Geger Dominique Briechle Andreas Rausch OnRL 10 0 0 15 Mar 2026
Refold: Refining Protein Inverse Folding with Efficient Structural Matching and Fusion Yiran Zhu Changxi Chi Hongxin Xiang Wenjie Du Xiaoqi Wang Jun Xia OnRL 13 0 0 15 Mar 2026
GoldenStart: Q-Guided Priors and Entropy Control for Distilling Flow Policies He Zhang Ying Sun Hui Xiong OnRL 11 0 0 15 Mar 2026
Chunk-Guided Q-Learning Gwanwoo Song Kwanyoung Park Youngwoon Lee OffRL OnRL LRM 18 0 0 14 Mar 2026
Robust Regularized Policy Iteration under Transition Uncertainty Hongqiang Lin Zhenghui Fu Weihao Tang Pengfei Wang Yiding Sun Qixian Huang Dongxu Zhang OffRL OnRL 41 0 0 10 Mar 2026
Reinforcement learning-based dynamic cleaning scheduling framework for solar energy systemJournal of Korean institute of intelligent systems (JKIIS), 2025 Heungjo An OnRL 39 0 0 08 Mar 2026
Optimistic Policy Regularization Mai Pham Vikrant Vaze Peter Chin OnRL 20 0 0 06 Mar 2026
Boosting deep Reinforcement Learning using pretraining with Logical Options Zihan Ye Phil Chau Raban Emunds Jannis Blüml Cedric Derstroff Quentin Delfosse Oleg Arenz Kristian Kersting OnRL AI4CE 34 0 0 06 Mar 2026
SEAR: Sample Efficient Action Chunking Reinforcement Learning C. F. Maximilian Nagy Onur Celik Emiliyan Gospodinov Florian Seligmann Weiran Liao Aryan Kaushik Gerhard Neumann OffRL OnRL 54 0 0 02 Mar 2026
Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance Yanwei Ren Haotian Zhang Likang Xiao Xikai Zhang Jiaxing Huang Jiayan Qiu Baosheng Yu Quan Chen Liu Liu OnRL LRM 46 0 1 27 Feb 2026
Actor-Critic Pretraining for Proximal Policy Optimization Andreas Kernbach Amr Elsheikh Nicolas Grupp René Nagel Marco F. Huber OffRL OnRL 35 0 0 27 Feb 2026
Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning Yongjae Shin Jongseong Chae Jongeui Park Youngchul Sung OnRL 48 0 0 20 Feb 2026
Robot-Assisted Social Dining as a White Glove Service Atharva S Kashyap Ugne Aleksandra Morkute Patricia Alves-Oliveira OnRL 40 0 0 17 Feb 2026
UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents Han Xiao Guozhi Wang Hao Wang Shilong Liu Yuxiang Chai Yue Pan Yufeng Zhou Xiaoxin Chen Yafei Wen Hongsheng Li OffRL OnRL 116 0 0 05 Feb 2026
QuAIL: Quality-Aware Inertial Learning for Robust Training under Data Corruption Mattia Sabella Alberto Archetti Pietro Pinoli Matteo Matteucci Cinzia Cappiello OnRL 107 0 0 03 Feb 2026
FORLER: Federated Offline Reinforcement Learning with Q-Ensemble and Actor Rectification Nan Qiao Sheng Yue OffRL OnRL 66 0 0 02 Feb 2026
Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL Julian Lemmel Felix Resch Mónika Farsang Ramin Hasani Daniela Rus Radu Grosu OnRL 148 0 0 02 Feb 2026
Just-in-Time Catching Test Generation at Meta Matthew Becker Yifei Chen Nicholas Cochran Pouyan Ghasemi Abhishek Gulati ... Weini Liu Sreeja Thummala Xiaoning Yang Rui Xin Sophie Zeng TTA OnRL 103 0 0 30 Jan 2026
Self-Improving Pretraining: using post-trained models to pretrain better models Ellen Xiaoqing Tan Shehzaad Dhuliawala Jing Xu Ping Yu Sainbayar Sukhbaatar Jason Weston Olga Golovneva OffRL OnRL LRM 187 0 0 29 Jan 2026
Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control Weidong Huang Zhehan Li Hangxin Liu Biao Hou Yao Su Jingwen Zhang OffRL OnRL 133 0 0 29 Jan 2026
E2HiL: Entropy-Guided Sample Selection for Efficient Real-World Human-in-the-Loop Reinforcement Learning Haoyuan Deng Yuanjiang Xue Haoyang Du Boyang Zhou Zhenyu Wu Ziwei Wang OnRL 96 0 0 27 Jan 2026
Safe Exploration via Policy Priors Manuel Wendl Yarden As Manish Prajapat Anton Pollak Stelian Coros Andreas Krause OffRL OnRL 171 0 0 27 Jan 2026
Improving Policy Exploitation in Online Reinforcement Learning with Instant Retrospect Action Gong Gao Weidong Zhao Xianhui Liu Ning Jia OffRL OnRL 146 0 0 27 Jan 2026
Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes Amrith Setlur Zijian Wang Andrew Cohen Paria Rashidinejad Sang Michael Xie OffRL OnRL 142 0 0 26 Jan 2026
OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents Yuhang Zhou Kai Zheng Qiguang Chen Mengkang Hu Qingfeng Sun Can Xu Jingjing Chen OffRL OnRL 120 0 0 26 Jan 2026
Athena: Synergizing Data Prefetching and Off-Chip Prediction via Online Reinforcement Learning Rahul Bera Zhenrong Lang Caroline Hengartner Konstantinos Kanellopoulos Rakesh Kumar Mohammad Sadrosadati Onur Mutlu OnRL 88 0 0 24 Jan 2026
Off-Policy Actor-Critic with Sigmoid-Bounded Entropy for Real-World Robot Learning Xiefeng Wu Mingyu Hu Shu Zhang OffRL OnRL 157 0 0 22 Jan 2026
Adapting Rules of Official International Mahjong for Online Players Chucai Wang Lingfeng Li Yunlong Lu Wenxin Li OnRL 158 0 0 13 Jan 2026
Failure-Aware RL: Reliable Offline-to-Online Reinforcement Learning with Self-Recovery for Real-World Manipulation Huanyu Li Kun Lei Sheng Zang Kaizhe Hu Yongyuan Liang Bo An Xiaoli Li Huazhe Xu OffRL OnRL 213 0 0 12 Jan 2026
Embedding Retrofitting: Data Engineering for better RAG Anantha Sharma OnRL 120 0 0 06 Jan 2026
Enhancing Zero-Shot Time Series Forecasting in Off-the-Shelf LLMs via Noise Injection Xingyou Yin Ceyao Zhang Min Hu Kai Chen AI4TS OffRL UQCV RALM SyDa LMTD BDL KELM MQ AI4CE MLAU AIFin AAML AI4MH WaLM MU 3DGS LM&Ro 3DV PILM OSLM CLL PER MIALM UQLM DML HILM AILaw AI4Cl LM&MA FedML VLM AuLLM LLMSV ReLM ReCod SLR UD AI4Ed SILM VGen OnRL HAI WSOL MGen ALM LRM MILM ELM PINN VOT MoE CLIP PICV SupR OCL TTA CoGe OT MLT NAI CML ISeg MedIm 3DH GP ViT FAtt WSOD 3DPC XAI SSL GNN SSeg MDE 15 0 0 24 Dec 2025
ArcGen: Generalizing Neural Backdoor Detection Across Diverse ArchitecturesIEEE Transactions on Information Forensics and Security (TIFS), 2025 Zhonghao Yang Cheng Luo Daojing He Yiming Li Yu Li AAML MLAU DML AI4CE AI4TS MLT SILM AIFin UQCV PINN FedML ELM MU OffRL SLR KELM SyDa 3DPC AILaw MQ ISeg LLMSV BDL PILM OnRL MIALM PER LM&Ro PICV VLM FAtt CML WaLM ViT RALM LMTD MGen MILM MedIm HILM NAI 3DV OCL VGen WSOL UD SSL 3DGS GNN ALM LM&MA XAI WSOD TTA SSeg UQLM CLL LRM ReCod SupR AuLLM MDE MoE HAI VOT 3DH OSLM AI4MH CoGe CLIP AI4Ed OT AI4Cl ReLM GP 61 0 0 24 Dec 2025
Chemically-Informed Machine Learning Approach for Prediction of Reactivity Ratios in Radical Copolymerization Habibollah Safari Mona Bavarian BDL OffRL CLL MLAU AAML AI4Cl AI4CE HAI PER 3DV MU AI4TS OCL MoE WSOL KELM UD VOT CoGe MQ ELM VLM SSL GNN PINN AIFin AILaw ReCod MILM PICV ReLM OnRL LRM MLT MIALM DML AI4MH UQCV LMTD 3DPC WaLM FAtt MedIm VGen HILM UQLM ISeg LLMSV AI4Ed LM&MA ALM OSLM SLR SyDa LM&Ro SSeg NAI MGen RALM TTA 3DGS SupR 3DH OT PILM WSOD ViT MDE CML FedML CLIP SILM XAI GP AuLLM 75 0 0 24 Dec 2025
End-to-End Data Quality-Driven Framework for Machine Learning in Production Environment Firas Bayram Bestoun S. Ahmed Erik Hallin SyDa AI4TS OffRL AI4CE UQCV LMTD MedIm AI4Cl 3DV MQ OnRL AIFin MoE MLT PINN KELM AAML LM&MA AI4Ed MIALM PER HAI ELM MU 3DGS ALM BDL PILM AI4MH UD SILM MLAU FedML WaLM SLR 3DH OSLM LRM DML HILM VOT RALM OCL VLM AuLLM GP WSOD CLL VGen CoGe ReCod TTA AILaw ISeg NAI UQLM CML ReLM WSOL XAI MILM MGen CLIP FAtt 3DPC GNN PICV ViT OT LM&Ro LLMSV SSeg SupR MDE SSL 23 0 0 24 Dec 2025
Data-Driven Mechanism Design: Jointly Eliciting Preferences and InformationACM Conference on Economics and Computation (EC), 2024 Dirk Bergemann Marek Bojko Paul Dütting Renato Paes Leme Haifeng Xu Song Zuo MLAU FedML MLT OffRL FAtt MoE SyDa AIFin 3DV MQ AI4Cl PINN PER HAI MU RALM KELM WaLM TTA VGen XAI MedIm MILM ReCod UD AI4TS CML OCL AI4Ed SLR 3DPC LRM GNN OSLM PICV AAML AI4CE MGen 3DGS OnRL ELM HILM DML LM&MA AILaw MIALM OT LLMSV LMTD BDL LM&Ro SupR UQCV SILM CoGe ALM NAI AI4MH GP PILM ViT VOT ReLM VLM WSOL WSOD SSeg CLIP ISeg CLL MDE AuLLM UQLM SSL 3DH 152 0 0 24 Dec 2025
TongSIM: A General Platform for Simulating Intelligent Machines Zhe Sun Kunlun Wu Chuanjian Fu Zeming Song Langyong Shi ... Wei Wang Tao Yuan Song-Chun Zhu Yujia Peng Zhenliang Zhang LM&Ro ALM AI4CE LM&MA SyDa 3DGS ELM VGen SLR AI4MH AuLLM ReLM MoE TTA VLM AILaw CLIP 3DV LRM RALM SSeg OSLM DML MLAU CLL PINN AI4TS MedIm LMTD AI4Cl 3DPC AIFin FedML SILM ReCod HILM OffRL KELM AI4Ed BDL AAML PER UQLM 3DH HAI ISeg GP ViT MU MILM UQCV WaLM NAI MQ GNN MLT OCL PILM OT MIALM WSOL SSL UD OnRL CoGe MGen VOT SupR PICV FAtt WSOD XAI LLMSV CML MDE 10 0 0 24 Dec 2025
Hard Negative Sample-Augmented DPO Post-Training for Small Language Models Haocheng Lu Minjun Zhu Henry Yu ALM OffRL ReLM LRM RALM SyDa AI4Cl AAML OSLM MU CLL MQ MoE HILM KELM UQCV MILM AIFin 3DV ELM ReCod BDL LMTD PINN WaLM SLR AILaw PER NAI VGen AI4CE DML AI4TS LM&Ro UQLM MedIm AI4MH MLAU 3DGS VLM MIALM LM&MA MLT VOT CLIP AI4Ed CoGe UD OnRL PILM 3DH OCL HAI LLMSV SupR PICV FAtt ViT OT AuLLM FedML 3DPC WSOL WSOD GP SSL ISeg MGen SILM SSeg TTA GNN XAI CML MDE 134 0 0 24 Dec 2025
Attention Distance: A Novel Metric for Directed Fuzzing with Large Language Models Wang Bin Ao Yang Kedan Li Aofan Liu Hui Li Guibo Luo Weixiang Huang Yan Zhuang AAML MLAU FedML ALM SLR HILM LRM LMTD 3DGS AI4Cl UQCV CoGe MQ HAI TTA PER KELM LLMSV RALM ReCod CLL AI4Ed WaLM VLM AI4CE ELM OSLM OT MoE DML LM&MA UD NAI MIALM GNN VGen SyDa 3DV ReLM OffRL ISeg WSOL SSeg AIFin AI4TS VOT 3DPC MedIm LM&Ro MILM MGen BDL MU UQLM ViT FAtt OnRL MLT WSOD PILM GP PICV AI4MH CLIP AuLLM SILM AILaw CML OCL PINN XAI MDE SupR 3DH SSL 17 0 0 24 Dec 2025
Reduced Order Modeling for Tsunami Forecasting with Bayesian Hierarchical Pooling Shane X. Coffing John Tipton Arvind T. Mohan Darren Engwirda AI4CE AI4Cl AI4TS MU KELM PINN BDL OffRL SLR MedIm MLAU PER 3DV UQCV 3DGS RALM CLL SyDa LRM LM&Ro MILM HILM MoE UD 3DH ReCod WSOL VGen AIFin LMTD AI4MH MQ FAtt ReLM ALM ViT OSLM DML MLT WaLM VOT SSL LM&MA AAML AILaw CML PICV UQLM OT HAI VLM ISeg AI4Ed PILM FedML MIALM OnRL GP MGen 3DPC CoGe SupR TTA LLMSV OCL SILM ELM SSeg WSOD XAI MDE CLIP GNN NAI AuLLM 120 0 0 24 Dec 2025
SynCraft: Guiding Large Language Models to Predict Edit Sequences for Molecular Synthesizability Optimization Junren Li Luhua Lai BDL KELM ELM LM&Ro HILM NAI OSLM ReCod AILaw CLL SyDa AI4Cl MoE 3DV ReLM AI4CE MedIm AAML LRM AI4Ed MILM LM&MA AI4TS AIFin OnRL SILM MLAU OffRL MU AI4MH CLIP HAI ALM VGen WaLM UQLM PER CoGe OCL LMTD MQ SLR PINN 3DGS SSeg GNN LLMSV VLM 3DPC UQCV WSOL UD ViT OT VOT RALM MIALM TTA DML MGen CML GP MLT ISeg PILM PICV SupR SSL FedML AuLLM WSOD MDE FAtt 3DH XAI 289 0 0 24 Dec 2025

Loading #Papers per Month with "OnRL"

Past speakers

Name (-)

Top Contributors

Name (-)

Top Organizations at ResearchTrend.AI

Name (-)

Social Events

Date	Location	Event
No social events available