Sample-Efficient Reinforcement Learning of Undercomplete POMDPs

22 June 2020

Papers citing "Sample-Efficient Reinforcement Learning of Undercomplete POMDPs"

26 / 26 papers shown

Title
LLM-Guided Probabilistic Program Induction for POMDP Model Estimation Aidan Curtis Hao Tang Thiago Veloso Kevin Ellis Joshua B. Tenenbaum Tomás Lozano-Pérez Leslie Pack Kaelbling 184 0 0 04 May 2025
Reinforcement Learning with Continuous Actions Under Unmeasured Confounding Yuhan Li Eugene Han Yifan Hu Wenzhuo Zhou Zhengling Qi Yifan Cui Ruoqing Zhu OffRL 239 0 0 01 May 2025
Exploration is Harder than Prediction: Cryptographically Separating Reinforcement Learning from Supervised Learning Noah Golowich Ankur Moitra Dhruv Rohatgi OffRL 37 4 0 04 Apr 2024
On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation Yuheng Zhang Nan Jiang OffRL 29 4 0 22 Feb 2024
Provable Representation with Efficient Planning for Partial Observable Reinforcement Learning Hongming Zhang Tongzheng Ren Chenjun Xiao Dale Schuurmans Bo Dai 50 4 0 20 Nov 2023
Posterior Sampling-based Online Learning for Episodic POMDPs Dengwang Tang Dongze Ye Rahul Jain A. Nayyar Pierluigi Nuzzo OffRL 53 0 0 16 Oct 2023
Learning Optimal Admission Control in Partially Observable Queueing Networks Jonatha Anselmi B. Gaujal Louis-Sébastien Rebuffi 34 1 0 04 Aug 2023
Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP Jiacheng Guo Zihao Li Huazheng Wang Mengdi Wang Zhuoran Yang Xuezhou Zhang 37 5 0 21 Jun 2023
Learning in POMDPs is Sample-Efficient with Hindsight Observability Jonathan Lee Alekh Agarwal Christoph Dann Tong Zhang 36 20 0 31 Jan 2023
On the Power of Pre-training for Generalization in RL: Provable Benefits and Hardness Haotian Ye Xiaoyu Chen Liwei Wang S. Du OffRL 37 6 0 19 Oct 2022
Tractable Optimality in Episodic Latent MABs Jeongyeol Kwon Yonathan Efroni Constantine Caramanis Shie Mannor 55 3 0 05 Oct 2022
Off-Policy Evaluation for Episodic Partially Observable Markov Decision Processes under Non-Parametric Models Rui Miao Zhengling Qi Xiaoke Zhang OffRL 32 10 0 21 Sep 2022
Future-Dependent Value-Based Off-Policy Evaluation in POMDPs Masatoshi Uehara Haruka Kiyohara Andrew Bennett Victor Chernozhukov Nan Jiang Nathan Kallus C. Shi Wen Sun OffRL 34 16 0 26 Jul 2022
PAC Reinforcement Learning for Predictive State Representations Wenhao Zhan Masatoshi Uehara Wen Sun Jason D. Lee 42 38 0 12 Jul 2022
Computationally Efficient PAC RL in POMDPs with Latent Determinism and Conditional Embeddings Masatoshi Uehara Ayush Sekhari Jason D. Lee Nathan Kallus Wen Sun 62 6 0 24 Jun 2022
Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems Masatoshi Uehara Ayush Sekhari Jason D. Lee Nathan Kallus Wen Sun OffRL 51 32 0 24 Jun 2022
Sample-Efficient Reinforcement Learning of Partially Observable Markov Games Qinghua Liu Csaba Szepesvári Chi Jin 45 20 0 02 Jun 2022
Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes Miao Lu Yifei Min Zhaoran Wang Zhuoran Yang OffRL 57 22 0 26 May 2022
When Is Partially Observable Reinforcement Learning Not Scary? Qinghua Liu Alan Chung Csaba Szepesvári Chi Jin 22 94 0 19 Apr 2022
Learning Markov Games with Adversarial Opponents: Efficient Algorithms and Fundamental Limits Qinghua Liu Yuanhao Wang Chi Jin AAML 32 15 0 14 Mar 2022
Planning in Observable POMDPs in Quasipolynomial Time Noah Golowich Ankur Moitra Dhruv Rohatgi 27 27 0 12 Jan 2022
Reinforcement Learning in Reward-Mixing MDPs Jeongyeol Kwon Yonathan Efroni Constantine Caramanis Shie Mannor 34 15 0 07 Oct 2021
Understanding Domain Randomization for Sim-to-real Transfer Xiaoyu Chen Jiachen Hu Chi Jin Lihong Li Liwei Wang 24 112 0 07 Oct 2021
Sublinear Regret for Learning POMDPs Yi Xiong Ningyuan Chen Xuefeng Gao Xiang Zhou 29 25 0 08 Jul 2021
RL for Latent MDPs: Regret Guarantees and a Lower Bound Jeongyeol Kwon Yonathan Efroni Constantine Caramanis Shie Mannor 24 77 0 09 Feb 2021
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning Wenhao Li Bo Jin Xiangfeng Wang Junchi Yan H. Zha 25 21 0 17 Apr 2020