v1v2 (latest)

Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems

24 July 2023

Mengdi Wang

Papers citing "Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems"

21 / 21 papers shown

Title
Advances in Preference-based Reinforcement Learning: A Review Youssef Abdelkareem Shady Shehata Fakhri Karray OffRL 86 10 0 21 Aug 2024
Benchmarks and Algorithms for Offline Preference-Based Reward Learning Daniel Shin Anca Dragan Daniel S. Brown OffRL 77 56 0 03 Jan 2023
When is Realizability Sufficient for Off-Policy Reinforcement Learning? Andrea Zanette OffRL 62 15 0 10 Nov 2022
The Efficacy of Pessimism in Asynchronous Q-Learning Yuling Yan Gen Li Yuxin Chen Jianqing Fan OffRL 137 41 0 14 Mar 2022
Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity Laixi Shi Gen Li Yuting Wei Yuxin Chen Yuejie Chi OffRL 94 96 0 28 Feb 2022
Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation Dylan J. Foster A. Krishnamurthy D. Simchi-Levi Yunzong Xu OffRL 149 63 0 21 Nov 2021
Dueling RL: Reinforcement Learning with Trajectory Preferences Aldo Pacchiano Aadirupa Saha Jonathan Lee 88 90 0 08 Nov 2021
Towards Instance-Optimal Offline Reinforcement Learning with Pessimism Ming Yin Yu Wang OffRL 151 82 0 17 Oct 2021
Bellman-consistent Pessimism for Offline Reinforcement Learning Tengyang Xie Ching-An Cheng Nan Jiang Paul Mineiro Alekh Agarwal OffRL LRM 186 279 0 13 Jun 2021
Nearly Horizon-Free Offline Reinforcement Learning Zhaolin Ren Jialian Li Bo Dai S. Du Sujay Sanghavi OffRL 83 49 0 25 Mar 2021
Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism Paria Rashidinejad Banghua Zhu Cong Ma Jiantao Jiao Stuart J. Russell OffRL 233 290 0 22 Mar 2021
Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency Masatoshi Uehara Masaaki Imaizumi Nan Jiang Nathan Kallus Wen Sun Tengyang Xie OffRL 53 53 0 05 Feb 2021
Conservative Q-Learning for Offline Reinforcement Learning Aviral Kumar Aurick Zhou George Tucker Sergey Levine OffRL OnRL 146 1,836 0 08 Jun 2020
GPM: A Generic Probabilistic Model to Recover Annotator's Behavior and Ground Truth Labeling Jing Li Suiyi Ling Junle Wang Zhi Li P. Le Callet 38 8 0 01 Mar 2020
Dueling Posterior Sampling for Preference-Based Reinforcement Learning Ellen R. Novoseller Yibing Wei Yanan Sui Yisong Yue J. W. Burdick 86 64 0 04 Aug 2019
Information-Theoretic Considerations in Batch Reinforcement Learning Jinglin Chen Nan Jiang OOD OffRL 165 378 0 01 May 2019
RankME: Reliable Human Ratings for Natural Language Generation Jekaterina Novikova Ondrej Dusek Verena Rieser ALM 55 109 0 15 Mar 2018
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 218 3,377 0 12 Jun 2017
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 210 8,882 0 04 Feb 2016
Estimation from Pairwise Comparisons: Sharp Minimax Bounds with Topology Dependence Nihar B. Shah Sivaraman Balakrishnan Joseph K. Bradley Abhay K. Parekh Kannan Ramchandran Martin J. Wainwright 180 164 0 06 May 2015
Reducing Dueling Bandits to Cardinal Bandits Nir Ailon Thorsten Joachims Zohar Karnin 171 140 0 14 May 2014