Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

4 May 2020

Papers citing "Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems"

50 / 120 papers shown

Title
Towards VM Rescheduling Optimization Through Deep Reinforcement Learning Xianzhong Ding Yunkai Zhang Binbin Chen Donghao Ying Tieying Zhang Jianjun Chen Lei Zhang Alberto Cerpa Wan Du VLM 104 1 0 23 May 2025
Offline Constrained Reinforcement Learning under Partial Data Coverage Kihyuk Hong Ambuj Tewari OffRL 120 0 0 23 May 2025
Of Mice and Machines: A Comparison of Learning Between Real World Mice and RL Agents Shuo Han German Espinosa Junda Huang D. Dombeck Malcolm A. MacIver Bradly C. Stadie 88 0 0 18 May 2025
ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning Hongyin Zhang Zifeng Zhuang Han Zhao Pengxiang Ding Hongchao Lu Donglin Wang OffRL 99 0 0 12 May 2025
Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments Yun Qu Wenjie Wang Yixiu Mao Yiqin Lv Xiangyang Ji TTA 127 0 0 27 Apr 2025
Algorithm Discovery With LLMs: Evolutionary Search Meets Reinforcement Learning Anja Surina Amin Mansouri Lars Quaedvlieg Amal Seddas Maryna Viazovska Emmanuel Abbe Çağlar Gülçehre 76 2 0 07 Apr 2025
Prompt Optimization with Logged Bandit Data Haruka Kiyohara Daniel Yiming Cao Yuta Saito Thorsten Joachims 181 0 0 03 Apr 2025
Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs Nicolas Le Roux Marc G. Bellemare Jonathan Lebensold Arnaud Bergeron Joshua Greaves Alex Fréchette Carolyne Pelletier Eric Thibodeau-Laufer Sándor Toth Sam Work OffRL 128 5 0 18 Mar 2025
Quantization-Free Autoregressive Action Transformer Ziyad Sheebaelhamd Michael Tschannen Michael Muehlebach Claire Vernade 79 0 0 18 Mar 2025
MUSS: Multilevel Subset Selection for Relevance and Diversity Vu Nguyen Andrey Kan 82 0 0 14 Mar 2025
A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications Siyuan Mu Sen Lin MoE 392 5 0 10 Mar 2025
Yes, Q-learning Helps Offline In-Context RL Denis Tarasov Alexander Nikulin Ilya Zisman Albina Klepach Andrei Polubarov Nikita Lyubaykin Alexander Derevyagin Igor Kiselev Vladislav Kurenkov OffRL OnRL 395 1 0 24 Feb 2025
Statistical Inference in Reinforcement Learning: A Selective Survey Chengchun Shi OffRL 211 2 0 22 Feb 2025
Learning from Active Human Involvement through Proxy Value Propagation Zhenghao Peng Wenjie Mo Chenda Duan Quanyi Li Bolei Zhou 156 16 0 05 Feb 2025
GNN-DT: Graph Neural Network Enhanced Decision Transformer for Efficient Optimization in Dynamic Environments Stavros Orfanoudakis Nanda Kishor Panda Peter Palensky Pedro P. Vergara AI4CE 113 0 0 03 Feb 2025
Dual Alignment Maximin Optimization for Offline Model-based RL Chi Zhou Wang Luo Haoran Li Congying Han Tiande Guo Zicheng Zhang OffRL 112 0 0 02 Feb 2025
Temporal Logic Specification-Conditioned Decision Transformer for Offline Safe Reinforcement Learning Zijian Guo Weichao Zhou Wenchao Li OffRL 133 2 0 28 Jan 2025
State Combinatorial Generalization In Decision Making With Conditional Diffusion Models Xintong Duan Yutong He Fahim Tajwar Wen-Tse Chen Ruslan Salakhutdinov Jeff Schneider OffRL AI4CE 141 1 0 22 Jan 2025
Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning Abdullah Akgul Manuel Haußmann M. Kandemir OffRL 159 0 0 17 Jan 2025
On The Statistical Complexity of Offline Decision-Making Thanh Nguyen-Tang R. Arora OffRL 171 1 0 10 Jan 2025
Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba Wall Kim Mamba 94 0 0 10 Jan 2025
OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment Yooseok Lim Sujee Lee OffRL 197 0 0 03 Jan 2025
OffLight: An Offline Multi-Agent Reinforcement Learning Framework for Traffic Signal Control Rohit Bokade Xiaoning Jin OffRL 146 0 0 10 Nov 2024
Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning Marvin Alles Philip Becker-Ehmck Patrick van der Smagt Maximilian Karl OffRL 73 1 0 07 Nov 2024
Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy for Visuomotor Imitation Learning George Jiayuan Gao Tianyu Li Nadia Figueroa 103 0 0 05 Nov 2024
Prospective Learning: Learning for a Dynamic Future Ashwin De Silva Rahul Ramesh Rubing Yang Siyu Yu Joshua T. Vogelstein Pratik Chaudhari AI4TS 137 0 0 31 Oct 2024
A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks Thomas Schmied Thomas Adler Vihang Patil M. Beck Korbinian Poppel Johannes Brandstetter Günter Klambauer Razvan Pascanu Sepp Hochreiter 182 5 0 29 Oct 2024
Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model Jing Zhang Linjiajie Fang Kexin Shi Wenjia Wang Bing-Yi Jing OffRL 111 0 0 27 Oct 2024
MiniPLM: Knowledge Distillation for Pre-Training Language Models Yuxian Gu Hao Zhou Fandong Meng Jie Zhou Minlie Huang 128 5 0 22 Oct 2024
Offline-to-online Reinforcement Learning for Image-based Grasping with Scarce Demonstrations Bryan Chan Anson Leung James Bergstra OffRL OnRL 94 0 0 19 Oct 2024
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance Mitsuhiko Nakamoto Oier Mees Aviral Kumar Sergey Levine OffRL 110 15 0 17 Oct 2024
Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning Jiayu Chen Wentse Chen Jeff Schneider OffRL 80 3 0 15 Oct 2024
Latent Feature Mining for Predictive Model Enhancement with Large Language Models Bingxuan Li Pengyi Shi Amy Ward 103 10 0 06 Oct 2024
Robust Offline Imitation Learning from Diverse Auxiliary Data Udita Ghosh Dripta S. Raychaudhuri Jiachen Li Konstantinos Karydis Amit K. Roy-Chowdhury OffRL 66 1 0 04 Oct 2024
Doubly Optimal Policy Evaluation for Reinforcement Learning Shuze Liu Claire Chen Shangtong Zhang OffRL 149 3 0 03 Oct 2024
Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown Xingzhou Lou Dong Yan Wei Shen Yuzi Yan Jian Xie Junge Zhang 154 27 0 01 Oct 2024
Offline and Distributional Reinforcement Learning for Radio Resource Management Eslam Eldeeb Hirley Alves OffRL 73 2 0 25 Sep 2024
Adaptive Learn-then-Test: Statistically Valid and Efficient Hyperparameter Selection Matteo Zecchin Sangwoo Park Osvaldo Simeone LM&MA 206 3 0 24 Sep 2024
Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling Jesse van Remmerden Zaharah Bukhsh Yingqian Zhang OffRL OnRL 92 1 0 16 Sep 2024
MAPF-GPT: Imitation Learning for Multi-Agent Pathfinding at Scale Anton Andreychuk Konstantin Yakovlev Aleksandr I. Panov A. Skrynnik AI4CE 93 4 0 29 Aug 2024
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning Wang Luo Haoran Li Zicheng Zhang Congying Han Jiayu Lv Tiande Guo OffRL 91 1 0 23 Aug 2024
Domain Adaptation for Offline Reinforcement Learning with Limited Samples Weiqin Chen Sandipan Mishra Santiago Paternain OffRL 82 2 0 22 Aug 2024
Leveraging Unlabeled Data Sharing through Kernel Function Approximation in Offline Reinforcement Learning Yen-Ru Lai Fu-Chieh Chang Pei-Yuan Wu OffRL 103 1 0 22 Aug 2024
ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems Yi Zhang Ruihong Qiu Jiajun Liu Sen Wang OffRL 74 0 0 18 Jul 2024
To Switch or Not to Switch? Balanced Policy Switching in Offline Reinforcement Learning Tao Ma Xuzhi Yang Zoltan Szabo OffRL 105 0 0 01 Jul 2024
Preference Elicitation for Offline Reinforcement Learning Alizée Pace Bernhard Schölkopf Gunnar Rätsch Giorgia Ramponi OffRL 99 1 0 26 Jun 2024
RILe: Reinforced Imitation Learning Mert Albaba Sammy Christen Christoph Gebhardt Thomas Langarek Otmar Hilliges Otmar Hilliges 81 1 0 12 Jun 2024
Amortizing intractable inference in diffusion models for vision, language, and control S. Venkatraman Moksh Jain Luca Scimeca Minsu Kim Marcin Sendera ... Alexandre Adam Jarrid Rector-Brooks Yoshua Bengio Glen Berseth Nikolay Malkin 113 30 0 31 May 2024
Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning Linjiajie Fang Ruoxue Liu Jing Zhang Wenjia Wang Bing-Yi Jing OffRL 94 7 0 31 May 2024
IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History Yi Xu Weiran Shen Xiao Zhang Jun Xu OffRL 145 0 0 24 Mar 2024