Conservative Contextual Linear Bandits

19 November 2016

Papers citing "Conservative Contextual Linear Bandits"

28 / 28 papers shown

Title
Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints Jiabin Lin Shana Moothedath 53 1 0 21 Jan 2024
Conservative Exploration for Policy Optimization via Off-Policy Policy Evaluation Paul Daoudi Mathias Formoso Othman Gaizi Achraf Azize Evrard Garcelon OffRL 31 0 0 24 Dec 2023
Near-optimal Conservative Exploration in Reinforcement Learning under Episode-wise Constraints Donghao Li Ruiquan Huang Cong Shen Jing Yang 45 3 0 09 Jun 2023
Learning for Edge-Weighted Online Bipartite Matching with Robustness Guarantees Pengfei Li Jianyi Yang Shaolei Ren OffRL 27 4 0 31 May 2023
Exploration of Unranked Items in Safe Online Learning to Re-Rank Hiroaki Shiino Kaito Ariu Kenshi Abe Togashi Riku OnRL 22 0 0 02 May 2023
Active Learning with Safety Constraints Romain Camilleri Andrew Wagenmaker Jamie Morgenstern Lalit P. Jain Kevin G. Jamieson 30 12 0 22 Jun 2022
Safety Aware Changepoint Detection for Piecewise i.i.d. Bandits Subhojyoti Mukherjee 21 1 0 27 May 2022
Stochastic Conservative Contextual Linear Bandits Jiabin Lin Xian Yeow Lee Talukder Jubery Shana Moothedath Soumik Sarkar Baskar Ganapathysubramanian 16 7 0 29 Mar 2022
Safe Exploration for Efficient Policy Evaluation and Comparison Runzhe Wan Branislav Kveton Rui Song OffRL 38 10 0 26 Feb 2022
Regret Minimization with Performative Feedback Meena Jagadeesan Tijana Zrnic Celestine Mendler-Dünner 43 33 0 01 Feb 2022
Learning Infinite-Horizon Average-Reward Markov Decision Processes with Constraints Liyu Chen R. Jain Haipeng Luo 72 25 0 31 Jan 2022
ESCADA: Efficient Safety and Context Aware Dose Allocation for Precision Medicine Ilker Demirel Ahmet Çelik Cem Tekin 36 4 0 26 Nov 2021
Best Arm Identification with Safety Constraints Zhenlin Wang Andrew Wagenmaker Kevin G. Jamieson 27 21 0 23 Nov 2021
Safe Data Collection for Offline and Online Policy Learning Ruihao Zhu Branislav Kveton OffRL 21 5 0 08 Nov 2021
Bandit Algorithms for Precision Medicine Yangyi Lu Ziping Xu Ambuj Tewari 66 11 0 10 Aug 2021
Learning Policies with Zero or Bounded Constraint Violation for Constrained MDPs Tao-Wen Liu Ruida Zhou D. Kalathil P. R. Kumar Chao Tian 44 78 0 04 Jun 2021
Continuous Mean-Covariance Bandits Yihan Du Siwei Wang Zhixuan Fang Longbo Huang 14 4 0 24 Feb 2021
Stochastic Linear Bandits with Protected Subspace Advait Parulekar Soumya Basu Aditya Gopalan Karthikeyan Shanmugam Sanjay Shakkottai 82 2 0 02 Nov 2020
Towards Safe Policy Improvement for Non-Stationary MDPs Yash Chandak Scott M. Jordan Georgios Theocharous Martha White Philip S. Thomas OffRL 71 33 0 23 Oct 2020
A Provably Efficient Sample Collection Strategy for Reinforcement Learning Jean Tarbouriech Matteo Pirotta Michal Valko A. Lazaric OffRL 27 16 0 13 Jul 2020
Learning under Invariable Bayesian Safety Gal Bahar Omer Ben-Porat Kevin Leyton-Brown Moshe Tennenholtz 27 0 0 08 Jun 2020
Exploration-Exploitation in Constrained MDPs Yonathan Efroni Shie Mannor Matteo Pirotta 33 171 0 04 Mar 2020
Safe Linear Thompson Sampling with Side Information Ahmadreza Moradipari Sanae Amani M. Alizadeh Christos Thrampoulidis 27 42 0 06 Nov 2019
Linear Stochastic Bandits Under Safety Constraints Sanae Amani M. Alizadeh Christos Thrampoulidis 36 117 0 16 Aug 2019
Rarely-switching linear bandits: optimization of causal effects for the real world B. Lansdell Sofia Triantafillou Konrad Paul Kording 22 4 0 30 May 2019
Best Arm Identification in Generalized Linear Bandits Abbas Kazerouni L. Wein 19 29 0 20 May 2019
Dynamic Learning with Frequent New Product Launches: A Sequential Multinomial Logit Bandit Problem Junyu Cao Wei-Ju Sun 21 2 0 29 Apr 2019
BubbleRank: Safe Online Learning to Re-Rank via Implicit Click Feedback Chang Li Branislav Kveton Tor Lattimore Ilya Markov Maarten de Rijke Csaba Szepesvári M. Zoghi OffRL 21 11 0 15 Jun 2018