Periodic agent-state based Q-learning for POMDPs

v1v2 (latest)

Periodic agent-state based Q-learning for POMDPs

8 July 2024

ArXiv (abs)PDF HTML

Papers citing "Periodic agent-state based Q-learning for POMDPs"

18 / 18 papers shown

Title
Reinforcement Learning in Non-Markovian Environments Siddharth Chandak Pratik Shah Vivek Borkar Parth Dodhia OOD 68 7 0 03 Nov 2022
Goal-Conditioned Reinforcement Learning with Imagined Subgoals Elliot Chane-Sane Cordelia Schmid Ivan Laptev 77 144 0 01 Jul 2021
Reinforcement Learning, Bit by Bit Xiuyuan Lu Benjamin Van Roy Vikranth Dwaracherla M. Ibrahimi Ian Osband Zheng Wen 57 70 0 06 Mar 2021
Simple Agent, Complex Environment: Efficient Reinforcement Learning with Agent States Shi Dong Benjamin Van Roy Zhengyuan Zhou 54 32 0 10 Feb 2021
Approximate information state for approximate planning and reinforcement learning in partially observed systems Jayakumar Subramanian Amit Sinha Raihan Seraj Aditya Mahajan 140 86 0 17 Oct 2020
Mastering Atari with Discrete World Models Danijar Hafner Timothy Lillicrap Mohammad Norouzi Jimmy Ba DRL 117 869 0 05 Oct 2020
Dream to Control: Learning Behaviors by Latent Imagination Danijar Hafner Timothy Lillicrap Jimmy Ba Mohammad Norouzi VLM 126 1,371 0 03 Dec 2019
A Theory of Regularized Markov Decision Processes Matthieu Geist B. Scherrer Olivier Pietquin 133 332 0 31 Jan 2019
Deep Hierarchical Reinforcement Learning Algorithm in Partially Observable Markov Decision Processes T. P. Le Ngo Anh Vien Abu Layek TaeChoong Chung 49 52 0 11 May 2018
FeUdal Networks for Hierarchical Reinforcement Learning A. Vezhnevets Simon Osindero Tom Schaul N. Heess Max Jaderberg David Silver Koray Kavukcuoglu FedML 96 907 0 03 Mar 2017
Deep Reinforcement Learning with Double Q-learning H. V. Hasselt A. Guez David Silver OffRL 170 7,662 0 22 Sep 2015
Deep Recurrent Q-Learning for Partially Observable MDPs Matthew J. Hausknecht Peter Stone 108 1,685 0 23 Jul 2015
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves Ioannis Antonoglou Daan Wierstra Martin Riedmiller 129 12,265 0 19 Dec 2013
Incremental Pruning: A Simple, Fast, Exact Method for Partially Observable Markov Decision Processes A. Cassandra Michael L. Littman N. Zhang 103 509 0 06 Feb 2013
On the Use of Non-Stationary Policies for Stationary Infinite-Horizon Markov Decision Processes B. Scherrer Boris Lesner OffRL 84 51 0 29 Nov 2012
Heuristic Search Value Iteration for POMDPs Trey Smith R. Simmons 96 548 0 11 Jul 2012
Perseus: Randomized Point-based Value Iteration for POMDPs M. Spaan N. Vlassis 107 768 0 09 Sep 2011
Infinite-Horizon Policy-Gradient Estimation Jonathan Baxter Peter L. Bartlett 102 812 0 03 Jun 2011