Regret Analysis for Continuous Dueling Bandit

21 November 2017

Papers citing "Regret Analysis for Continuous Dueling Bandit"

5 / 5 papers shown

Title
Optimism in the Face of Ambiguity Principle for Multi-Armed Bandits Mengmeng Li Daniel Kuhn Bahar Taşkesen 44 0 0 30 Sep 2024
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference Qining Zhang Lei Ying OffRL 40 2 0 25 Sep 2024
Dueling Convex Optimization with General Preferences Aadirupa Saha Tomer Koren Yishay Mansour 28 2 0 27 Sep 2022
Versatile Dueling Bandits: Best-of-both-World Analyses for Online Learning from Preferences Aadirupa Saha Pierre Gaillard 36 8 0 14 Feb 2022
Efficient and Optimal Algorithms for Contextual Dueling Bandits under Realizability Aadirupa Saha A. Krishnamurthy 39 35 0 24 Nov 2021