Whittle index based Q-learning for restless bandits with average reward

29 April 2020

Papers citing "Whittle index based Q-learning for restless bandits with average reward"

37 / 37 papers shown

Title
Reinforcement learning with combinatorial actions for coupled restless bandits Lily Xu Bryan Wilder Elias B. Khalil Milind Tambe 75 1 0 01 Mar 2025
Lagrangian Index Policy for Restless Bandits with Average Reward Konstantin Avrachenkov Vivek Borkar Pratik Shah 83 0 0 17 Dec 2024
Model Predictive Control is Almost Optimal for Restless Bandit Nicolas Gast Dheeraj Narasimha 18 0 0 08 Oct 2024
DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback Guojun Xiong Ujwal Dinesha Debajoy Mukherjee Jian Li Srinivas Shakkottai 55 2 0 07 Oct 2024
Whittle Index Learning Algorithms for Restless Bandits with Constant Stepsizes Vishesh Mittal R. Meshram Surya Prakash 32 0 0 06 Sep 2024
GINO-Q: Learning an Asymptotically Optimal Index Policy for Restless Multi-armed Bandits Gongpu Chen Soung Chang Liew Deniz Gunduz 25 1 0 19 Aug 2024
The Bandit Whisperer: Communication Learning for Restless Bandits Yunfan Zhao Tonghan Wang Dheeraj M. Nagaraj Aparna Taneja Milind Tambe 57 5 0 11 Aug 2024
Tabular and Deep Learning for the Whittle Index Francisco Robledo Relaño Vivek Borkar U. Ayesta Konstantin Avrachenkov 31 2 0 04 Jun 2024
Deep reinforcement learning for weakly coupled MDP's with continuous actions Francisco Robledo U. Ayesta Konstantin Avrachenkov 44 0 0 03 Jun 2024
Provably Efficient Reinforcement Learning for Adversarial Restless Multi-Armed Bandits with Unknown Transitions and Bandit Feedback Guojun Xiong Jian Li 33 1 0 02 May 2024
Tabular and Deep Reinforcement Learning for Gittins Index Harshit Dhankar Kshitij Mishra Tejas Bodas 40 0 0 02 May 2024
Structured Reinforcement Learning for Delay-Optimal Data Transmission in Dense mmWave Networks Shu-Fan Wang Guojun Xiong Shichen Zhang Huacheng Zeng Jian Li Shivendra Panwar 29 0 0 25 Apr 2024
A resource-constrained stochastic scheduling algorithm for homeless street outreach and gleaning edible food Conor M. Artman Aditya Mate Ezinne Nwankwo A. Heching Tsuyoshi Idé ... Kush R. Varshney Lauri Goldkind Gidi Kroch Jaclyn Sawyer Ian Watson 42 0 0 15 Mar 2024
An Index Policy Based on Sarsa and Q-learning for Heterogeneous Smart Target Tracking Yuhang Hao Zengfu Wang Jing-Zhi Fu Quan Pan 40 0 0 19 Feb 2024
Online Restless Multi-Armed Bandits with Long-Term Fairness Constraints Shu-Fan Wang Guojun Xiong Jian Li 62 6 0 16 Dec 2023
Weakly Coupled Deep Q-Networks Ibrahim El Shar Daniel R. Jiang 24 4 0 28 Oct 2023
Towards a Pretrained Model for Restless Bandits via Multi-arm Generalization Yunfan Zhao Nikhil Behari Edward Hughes Edwin Zhang Dheeraj M. Nagaraj K. Tuyls Aparna Taneja Milind Tambe 32 8 0 23 Oct 2023
Finite-Time Analysis of Whittle Index based Q-Learning for Restless Multi-Armed Bandits with Neural Network Function Approximation Guojun Xiong Jian Li 40 13 0 03 Oct 2023
Indexability of Finite State Restless Multi-Armed Bandit and Rollout Policy Vishesh Mittal R. Meshram Deepak Dev Surya Prakash 11 0 0 30 Apr 2023
Full Gradient Deep Reinforcement Learning for Average-Reward Criterion Tejas Pagare Vivek Borkar Konstantin Avrachenkov 34 4 0 07 Apr 2023
Policy Optimization for Personalized Interventions in Behavioral Health Jackie Baek J. Boutilier Vivek F. Farias J. Jónasson Erez Yoeli OffRL 22 7 0 21 Mar 2023
Caching Contents with Varying Popularity using Restless Bandits J. PavamanaK Chandramani Singh 14 0 0 31 Oct 2022
DeepTOP: Deep Threshold-Optimal Policy for MDPs and RMABs Khaled Nakhleh I.-Hong Hou 75 6 0 18 Sep 2022
Efficient Resource Allocation with Fairness Constraints in Restless Multi-Armed Bandits Dexun Li Pradeep Varakantham 6 9 0 08 Jun 2022
Optimistic Whittle Index Policy: Online Learning for Restless Bandits Kai Wang Lily Xu Aparna Taneja Milind Tambe 44 16 0 30 May 2022
Whittle Index based Q-Learning for Wireless Edge Caching with Linear Function Approximation Guojun Xiong Shu-Fan Wang Jian Li Rahul Singh 33 6 0 26 Feb 2022
On learning Whittle index policy for restless bandits with scalable regret N. Akbarzadeh Aditya Mahajan 21 13 0 07 Feb 2022
NeurWIN: Neural Whittle Index Network For Restless Bandits Via Deep RL Khaled Nakhleh Santosh Ganji Ping-Chun Hsieh I.-Hong Hou S. Shakkottai 61 38 0 05 Oct 2021
Field Study in Deploying Restless Multi-Armed Bandits: Assisting Non-Profits in Improving Maternal and Child Health Aditya Mate Lovish Madaan Aparna Taneja N. Madhiwalla Shresth Verma Gargi Singh Aparna Hegde Pradeep Varakantham Milind Tambe 28 52 0 16 Sep 2021
Restless and Uncertain: Robust Policies for Restless Bandits via Deep Multi-Agent Reinforcement Learning J. Killian Lily Xu Arpita Biswas Milind Tambe 27 6 0 04 Jul 2021
Q-Learning Lagrange Policies for Multi-Action Restless Bandits J. Killian Arpita Biswas Sanket Shah Milind Tambe OffRL 38 33 0 22 Jun 2021
Reinforcement Learning for Markovian Bandits: Is Posterior Sampling more Scalable than Optimism? Nicolas Gast B. Gaujal K. Khun 36 2 0 16 Jun 2021
Learn to Intervene: An Adaptive Learning Policy for Restless Bandits in Application to Preventive Healthcare Arpita Biswas Gaurav Aggarwal Pradeep Varakantham Milind Tambe 17 41 0 17 May 2021
Learning Augmented Index Policy for Optimal Service Placement at the Network Edge Guojun Xiong Rahul Singh Jian Li 29 9 0 10 Jan 2021
Screening for an Infectious Disease as a Problem in Stochastic Control Jakub Mareˇcek 14 3 0 01 Nov 2020
Average-reward model-free reinforcement learning: a systematic review and literature mapping Vektor Dewanto George Dunn A. Eshragh M. Gallagher Fred Roosta 14 29 0 18 Oct 2020
Detecting an Odd Restless Markov Arm with a Trembling Hand P. Karthik R. Sundaresan 16 6 0 13 May 2020