Agent-state based policies in POMDPs: Beyond belief-state MDPs

24 September 2024

Papers citing "Agent-state based policies in POMDPs: Beyond belief-state MDPs"

16 / 16 papers shown

Title
When Do Transformers Shine in RL? Decoupling Memory from Credit Assignment Tianwei Ni Michel Ma Benjamin Eysenbach Pierre-Luc Bacon OffRL 90 41 0 07 Jul 2023
Reinforcement Learning in Non-Markovian Environments Siddharth Chandak Pratik Shah Vivek Borkar Parth Dodhia OOD 70 7 0 03 Nov 2022
Q-Learning for MDPs with General Spaces: Convergence and Near Optimality via Quantization under Weak Continuity A. D. Kara Naci Saldi S. Yüksel 59 29 0 12 Nov 2021
Reinforcement Learning, Bit by Bit Xiuyuan Lu Benjamin Van Roy Vikranth Dwaracherla M. Ibrahimi Ian Osband Zheng Wen 57 70 0 06 Mar 2021
Simple Agent, Complex Environment: Efficient Reinforcement Learning with Agent States Shi Dong Benjamin Van Roy Zhengyuan Zhou 54 32 0 10 Feb 2021
Approximate information state for approximate planning and reinforcement learning in partially observed systems Jayakumar Subramanian Amit Sinha Raihan Seraj Aditya Mahajan 142 86 0 17 Oct 2020
Mastering Atari with Discrete World Models Danijar Hafner Timothy Lillicrap Mohammad Norouzi Jimmy Ba DRL 121 869 0 05 Oct 2020
Dream to Control: Learning Behaviors by Latent Imagination Danijar Hafner Timothy Lillicrap Jimmy Ba Mohammad Norouzi VLM 130 1,371 0 03 Dec 2019
DeepMDP: Learning Continuous Latent Space Models for Representation Learning Carles Gelada Saurabh Kumar Jacob Buckman Ofir Nachum Marc G. Bellemare BDL 85 288 0 06 Jun 2019
Lipschitz Continuity in Model-based Reinforcement Learning Kavosh Asadi Dipendra Kumar Misra Michael L. Littman KELM 94 156 0 19 Apr 2018
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves Ioannis Antonoglou Daan Wierstra Martin Riedmiller 129 12,265 0 19 Dec 2013
Incremental Pruning: A Simple, Fast, Exact Method for Partially Observable Markov Decision Processes A. Cassandra Michael L. Littman N. Zhang 103 509 0 06 Feb 2013
Learning Finite-State Controllers for Partially Observable Environments Nicolas Meuleau L. Peshkin Kee-Eung Kim L. Kaelbling 84 240 0 23 Jan 2013
Heuristic Search Value Iteration for POMDPs Trey Smith R. Simmons 96 548 0 11 Jul 2012
Perseus: Randomized Point-based Value Iteration for POMDPs M. Spaan N. Vlassis 107 768 0 09 Sep 2011
Infinite-Horizon Policy-Gradient Estimation Jonathan Baxter Peter L. Bartlett 102 812 0 03 Jun 2011