Yes, Q-learning Helps Offline In-Context RL

24 February 2025

Papers citing "Yes, Q-learning Helps Offline In-Context RL"

49 / 49 papers shown

Title
Zero-Shot Adaptation of Behavioral Foundation Models to Unseen Dynamics Maksim Bobrin Ilya Zisman Alexander Nikulin Vladislav Kurenkov Dmitry V. Dylov OffRL 46 0 0 19 May 2025
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning Jaehyeon Son Soochan Lee Gunhee Kim OffRL 92 1 0 26 Feb 2025
A Survey of In-Context Reinforcement Learning Amir Moeini Jiuqi Wang Jacob Beck Ethan Blaser Shimon Whiteson Rohan Chandra Shangtong Zhang KELM OffRL 48 3 0 11 Feb 2025
Vintix: Action Model via In-Context Reinforcement Learning Andrey Polubarov Nikita Lyubaykin Alexander Derevyagin Ilya Zisman Denis Tarasov Alexander Nikulin Vladislav Kurenkov LRM LM&Ro 77 3 0 31 Jan 2025
N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs Ilya Zisman Alexander Nikulin Andrei Polubarov Nikita Lyubaykin Vladislav Kurenkov Andrei Polubarov Igor Kiselev Vladislav Kurenkov OffRL 77 2 0 04 Nov 2024
Retrieval-Augmented Decision Transformer: External Memory for In-context RL Thomas Schmied Fabian Paischer Vihang Patil M. Hofmarcher Razvan Pascanu Sepp Hochreiter OffRL 73 6 0 09 Oct 2024
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning Alexander Nikulin Ilya Zisman Alexey Zemtsov Viacheslav Sinii 153 5 0 13 Jun 2024
Is Value Functions Estimation with Classification Plug-and-play for Offline Reinforcement Learning? Denis Tarasov Kirill Brilliantov Dmitrii Kharlapenko OffRL 55 2 0 10 Jun 2024
In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought Sili Huang Jifeng Hu Hechang Chen Lichao Sun Bo Yang OffRL LRM 39 8 0 31 May 2024
Q-value Regularized Transformer for Offline Reinforcement Learning Shengchao Hu Ziqing Fan Chaoqin Huang Li Shen Ya Zhang Yanfeng Wang Dacheng Tao OffRL 22 13 0 27 May 2024
Reinformer: Max-Return Sequence Modeling for Offline RL Zifeng Zhuang Dengyun Peng Jinxin Liu Ziqi Zhang Donglin Wang OffRL AI4TS 66 13 0 14 May 2024
In-context Exploration-Exploitation for Reinforcement Learning Zhenwen Dai Federico Tomasi Sina Ghiassian OffRL OnRL 65 3 0 11 Mar 2024
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL Jesse Farebrother Jordi Orbay Q. Vuong Adrien Ali Taïga Yevgen Chebotar ... Sergey Levine Pablo Samuel Castro Aleksandra Faust Aviral Kumar Rishabh Agarwal OffRL 74 60 0 06 Mar 2024
Mixtures of Experts Unlock Parameter Scaling for Deep RL J. Obando-Ceron Ghada Sokar Timon Willi Clare Lyle Jesse Farebrother Jakob N. Foerster Gintare Karolina Dziugaite Doina Precup Pablo Samuel Castro 87 33 0 13 Feb 2024
In-Context Language Learning: Architectures and Algorithms Ekin Akyürek Bailin Wang Yoon Kim Jacob Andreas LRM ReLM 59 48 0 23 Jan 2024
In-Context Reinforcement Learning for Variable Action Spaces Viacheslav Sinii Alexander Nikulin Vladislav Kurenkov Ilya Zisman Sergey Kolesnikov 61 14 0 20 Dec 2023
Emergence of In-Context Reinforcement Learning from Noise Distillation Ilya Zisman Vladislav Kurenkov Alexander Nikulin Viacheslav Sinii Sergey Kolesnikov OffRL 50 10 0 19 Dec 2023
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX Alexander Nikulin Vladislav Kurenkov Ilya Zisman Artem Agarkov Viacheslav Sinii Sergey Kolesnikov 55 27 0 19 Dec 2023
Generalization to New Sequential Decision Making Tasks with In-Context Learning Sharath Chandra Raparthy Eric Hambro Robert Kirk Mikael Henaff Roberta Raileanu OffRL 131 21 0 06 Dec 2023
Supervised Pretraining Can Learn In-Context Reinforcement Learning Jonathan Lee Annie Xie Aldo Pacchiano Yash Chandak Chelsea Finn Ofir Nachum Emma Brunskill OffRL 63 78 0 26 Jun 2023
Katakomba: Tools and Benchmarks for Data-Driven NetHack Vladislav Kurenkov Alexander Nikulin Denis Tarasov Sergey Kolesnikov OffRL 52 5 0 14 Jun 2023
Revisiting the Minimalist Approach to Offline Reinforcement Learning Denis Tarasov Vladislav Kurenkov Alexander Nikulin Sergey Kolesnikov OffRL 56 43 0 16 May 2023
In-context Reinforcement Learning with Algorithm Distillation Michael Laskin Luyu Wang Junhyuk Oh Emilio Parisotto Stephen Spencer ... Ethan A. Brooks Maxime Gazeau Himanshu Sahni Satinder Singh Volodymyr Mnih OffRL 32 123 0 25 Oct 2022
CORL: Research-oriented Deep Offline Reinforcement Learning Library Denis Tarasov Alexander Nikulin Dmitry Akimov Vladislav Kurenkov Sergey Kolesnikov OffRL 91 85 0 13 Oct 2022
Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL Taku Yamagata Ahmed Khalil Raúl Santos-Rodríguez OffRL 172 75 0 08 Sep 2022
Offline RL for Natural Language Generation with Implicit Language Q Learning Charles Burton Snell Ilya Kostrikov Yi Su Mengjiao Yang Sergey Levine OffRL 169 109 0 05 Jun 2022
When Should We Prefer Offline Reinforcement Learning Over Behavioral Cloning? Aviral Kumar Joey Hong Anika Singh Sergey Levine OffRL 77 80 0 12 Apr 2022
A Dataset Perspective on Offline Reinforcement Learning Kajetan Schweighofer Andreas Radler Marius-Constantin Dinu M. Hofmarcher Vihang Patil Angela Bitto-Nemling Hamid Eghbalzadeh Sepp Hochreiter OffRL 37 17 0 08 Nov 2021
Offline Reinforcement Learning with Implicit Q-Learning Ilya Kostrikov Ashvin Nair Sergey Levine OffRL 249 874 0 12 Oct 2021
Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble Gaon An Seungyong Moon Jang-Hyun Kim Hyun Oh Song OffRL 143 272 0 04 Oct 2021
Deep Reinforcement Learning at the Edge of the Statistical Precipice Rishabh Agarwal Max Schwarzer Pablo Samuel Castro Aaron Courville Marc G. Bellemare OffRL 70 652 0 30 Aug 2021
Offline-to-Online Reinforcement Learning via Balanced Replay and Pessimistic Q-Ensemble Seunghyun Lee Younggyo Seo Kimin Lee Pieter Abbeel Jinwoo Shin OffRL OnRL 30 186 0 01 Jul 2021
A Minimalist Approach to Offline Reinforcement Learning Scott Fujimoto S. Gu OffRL 85 804 0 12 Jun 2021
Decision Transformer: Reinforcement Learning via Sequence Modeling Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel A. Srinivas Igor Mordatch OffRL 73 1,608 0 02 Jun 2021
The NetHack Learning Environment Heinrich Küttler Nantas Nardelli Alexander H. Miller Roberta Raileanu Marco Selvatici Edward Grefenstette Tim Rocktaschel 52 179 0 24 Jun 2020
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets Ashvin Nair Abhishek Gupta Murtaza Dalal Sergey Levine OffRL OnRL 73 601 0 16 Jun 2020
Conservative Q-Learning for Offline Reinforcement Learning Aviral Kumar Aurick Zhou George Tucker Sergey Levine OffRL OnRL 84 1,780 0 08 Jun 2020
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 445 41,106 0 28 May 2020
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 471 1,994 0 04 May 2020
Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning Tianhe Yu Deirdre Quillen Zhanpeng He Ryan Julian Avnish Narayan Hayden Shively Adithya Bellathur Karol Hausman Chelsea Finn Sergey Levine OffRL 187 1,145 0 24 Oct 2019
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables Kate Rakelly Aurick Zhou Deirdre Quillen Chelsea Finn Sergey Levine OffRL 64 652 0 19 Mar 2019
Off-Policy Deep Reinforcement Learning without Exploration Scott Fujimoto David Meger Doina Precup OffRL BDL 148 1,586 0 07 Dec 2018
Addressing Function Approximation Error in Actor-Critic Methods Scott Fujimoto H. V. Hoof David Meger OffRL 139 5,121 0 26 Feb 2018
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Tuomas Haarnoja Aurick Zhou Pieter Abbeel Sergey Levine 194 8,236 0 04 Jan 2018
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 360 129,831 0 12 Jun 2017
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer Noam M. Shazeer Azalia Mirhoseini Krzysztof Maziarz Andy Davis Quoc V. Le Geoffrey E. Hinton J. Dean MoE 134 2,582 0 23 Jan 2017
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 227 10,412 0 21 Jul 2016
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 673 149,474 0 22 Dec 2014
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves Ioannis Antonoglou Daan Wierstra Martin Riedmiller 89 12,163 0 19 Dec 2013