Introduction to Multi-Armed Bandits

15 April 2019

Papers citing "Introduction to Multi-Armed Bandits"

50 / 164 papers shown

Title
Rotting Infinitely Many-armed Bandits Jung-hun Kim Milan Vojnović Se-Young Yun 24 4 0 31 Jan 2022
Distributed Bandits with Heterogeneous Agents Lin Yang Y. Chen Mohammad Hajiesmaili John C. S. Lui Don Towsley 53 21 0 23 Jan 2022
BandMaxSAT: A Local Search MaxSAT Solver with Multi-armed Bandit Jiongzhi Zheng Kun He Jianrong Zhou Yan Jin ChuMin Li F. Manyà 23 13 0 14 Jan 2022
Collective Autoscaling for Cloud Microservices Vighnesh Sachidananda Anirudh Sivaraman 22 5 0 01 Dec 2021
Efficient and Optimal Algorithms for Contextual Dueling Bandits under Realizability Aadirupa Saha A. Krishnamurthy 42 35 0 24 Nov 2021
Safe Data Collection for Offline and Online Policy Learning Ruihao Zhu Branislav Kveton OffRL 19 5 0 08 Nov 2021
Interpretable Personalized Experimentation Han Wu S. Tan Weiwei Li Mia Garrard Adam Obeng Drew Dimmery Shaun Singh Hanson Wang Daniel R. Jiang E. Bakshy 33 5 0 05 Nov 2021
Adaptive Discretization in Online Reinforcement Learning Sean R. Sinclair Siddhartha Banerjee Chao Yu OffRL 45 15 0 29 Oct 2021
Adaptive Data Debiasing through Bounded Exploration Yifan Yang Yang Liu Parinaz Naghizadeh FaML 30 7 0 25 Oct 2021
On Slowly-varying Non-stationary Bandits Ramakrishnan Krishnamurthy Médéric Fourmy 27 8 0 25 Oct 2021
Anti-Concentrated Confidence Bonuses for Scalable Exploration Jordan T. Ash Cyril Zhang Surbhi Goel A. Krishnamurthy Sham Kakade 45 6 0 21 Oct 2021
Game Redesign in No-regret Game Playing Yuzhe Ma Young Wu Xiaojin Zhu 24 10 0 18 Oct 2021
Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise Comparisons Yue Wu Tao Jin Hao Lou Pan Xu Farzad Farnoud Quanquan Gu 29 5 0 08 Oct 2021
Customs Fraud Detection in the Presence of Concept Drift Tung Mai Kien Hoang Aitolkyn Baigutanova Gaukhartas Alina Sundong Kim 28 9 0 29 Sep 2021
Online Learning of Network Bottlenecks via Minimax Paths Niklas Åkerblom F. Hoseini M. Chehreghani 32 10 0 17 Sep 2021
Extreme Bandits using Robust Statistics Sujay Bhatt Ping Li G. Samorodnitsky 30 7 0 09 Sep 2021
Bilateral Trade: A Regret Minimization Perspective Nicolò Cesa-Bianchi Tommaso Cesari Roberto Colomboni Federico Fusco S. Leonardi 41 21 0 08 Sep 2021
Optimal Order Simple Regret for Gaussian Process Bandits Sattar Vakili N. Bouziani Sepehr Jalali A. Bernacchia Da-Shan Shiu 39 51 0 20 Aug 2021
Learning from an Exploring Demonstrator: Optimal Reward Estimation for Bandits Wenshuo Guo Kumar Krishna Agrawal Aditya Grover Vidya Muthukumar A. Pananjady 16 8 0 28 Jun 2021
Multi-armed Bandit Algorithms on System-on-Chip: Go Frequentist or Bayesian? S. Santosh S. Darak 19 0 0 05 Jun 2021
Optimal Algorithms for Range Searching over Multi-Armed Bandits Siddharth Barman Ramakrishnan Krishnamurthy S. Rahul 20 0 0 04 May 2021
Causal Decision Making and Causal Effect Estimation Are Not the Same... and Why It Matters Carlos Fernández-Loría F. Provost CML 19 43 0 08 Apr 2021
Constrained Contextual Bandit Learning for Adaptive Radar Waveform Selection C. Thornton R. M. Buehrer A. Martone 22 21 0 09 Mar 2021
Fairness of Exposure in Stochastic Bandits Lequn Wang Yiwei Bai Wen Sun Thorsten Joachims FaML 29 49 0 03 Mar 2021
Bayesian adversarial multi-node bandit for optimal smart grid protection against cyber attacks Jianyu Xu Bin Liu H. Mo D. Dong AAML 16 22 0 20 Feb 2021
A Regret Analysis of Bilateral Trade Nicolò Cesa-Bianchi Tommaso Cesari Roberto Colomboni Federico Fusco S. Leonardi 39 20 0 16 Feb 2021
An empirical evaluation of active inference in multi-armed bandits D. Marković Hrvoje Stojić Sarah Schwöbel S. Kiebel 42 34 0 21 Jan 2021
Survival of the strictest: Stable and unstable equilibria under regularized learning with partial information Angeliki Giannou Emmanouil-Vasileios Vlatakis-Gkaragkounis P. Mertikopoulos 36 35 0 12 Jan 2021
Blackwell Online Learning for Markov Decision Processes Tao Li Guanze Peng Quanyan Zhu OffRL 19 16 0 28 Dec 2020
Experts with Lower-Bounded Loss Feedback: A Unifying Framework Eyal Gofer Guy Gilboa OffRL 11 0 0 17 Dec 2020
Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals Eray Unsal Atay I. Kadota E. Modiano 12 9 0 16 Dec 2020
Fully Gap-Dependent Bounds for Multinomial Logit Bandit Jiaqi Yang 16 2 0 19 Nov 2020
Multi-Armed Bandits with Censored Consumption of Resources Viktor Bengs Eyke Hüllermeier 30 2 0 02 Nov 2020
Reinforcement Learning for Efficient and Tuning-Free Link Adaptation Vidit Saxena H. Tullberg Joakim Jaldén 21 36 0 16 Oct 2020
Online Learning with Vector Costs and Bandits with Knapsacks Thomas Kesselheim Sahil Singla 9 32 0 14 Oct 2020
On Information Gain and Regret Bounds in Gaussian Process Bandits Sattar Vakili Kia Khezeli Victor Picheny GP 27 128 0 15 Sep 2020
Competing AI: How does competition feedback affect machine learning? Antonio A. Ginart Eva Zhang Yongchan Kwon James Zou AAML 20 0 0 15 Sep 2020
Carousel Personalization in Music Streaming Apps with Contextual Bandits Walid Bendada Guillaume Salha-Galvan Théo Bontempelli 29 56 0 14 Sep 2020
Using Subjective Logic to Estimate Uncertainty in Multi-Armed Bandit Problems Fabio Massimo Zennaro A. Jøsang 19 4 0 17 Aug 2020
Identity-Aware Attribute Recognition via Real-Time Distributed Inference in Mobile Edge Clouds Zichuan Xu Jiangkai Wu Qiufen Xia Pan Zhou Jiankang Ren Huizhi Liang 23 4 0 12 Aug 2020
Green Offloading in Fog-Assisted IoT Systems: An Online Perspective Integrating Learning and Control Xin Gao Xi Huang Ziyu Shao Yang Yang 23 1 0 01 Aug 2020
Competing Bandits: The Perils of Exploration Under Competition Guy Aridor Yishay Mansour Aleksandrs Slivkins Zhiwei Steven Wu 25 16 0 20 Jul 2020
Adaptive Discretization for Model-Based Reinforcement Learning Sean R. Sinclair Tianyu Wang Gauri Jain Siddhartha Banerjee Chao Yu OffRL 19 21 0 01 Jul 2020
A Unifying Framework for Reinforcement Learning and Planning Thomas M. Moerland Joost Broekens Aske Plaat Catholijn M. Jonker OffRL 36 9 0 26 Jun 2020
Adaptive Discretization for Adversarial Lipschitz Bandits Chara Podimata Aleksandrs Slivkins 20 16 0 22 Jun 2020
$Q$ -learning with Logarithmic Regret Kunhe Yang Lin F. Yang S. Du 43 59 0 16 Jun 2020
Group-Fair Online Allocation in Continuous Time Semih Cayci Swati Gupta A. Eryilmaz FaML 32 19 0 11 Jun 2020
Efficient Contextual Bandits with Continuous Actions Maryam Majzoubi Chicheng Zhang Rajan Chari A. Krishnamurthy John Langford Aleksandrs Slivkins OffRL 29 32 0 10 Jun 2020
Greedy Algorithm almost Dominates in Smoothed Contextual Bandits Manish Raghavan Aleksandrs Slivkins Jennifer Wortman Vaughan Zhiwei Steven Wu 21 18 0 19 May 2020
Online Learning and Optimization for Revenue Management Problems with Add-on Discounts D. Simchi-Levi Rui Sun Huanan Zhang 10 11 0 02 May 2020