Query-Policy Misalignment in Preference-Based Reinforcement Learning

27 May 2023

Papers citing "Query-Policy Misalignment in Preference-Based Reinforcement Learning"

6 / 6 papers shown

Title
DAPPER: Discriminability-Aware Policy-to-Policy Preference-Based Reinforcement Learning for Query-Efficient Robot Skill Acquisition Yuki Kadokawa Jonas Frey Takahiro Miki Takamitsu Matsubara Marco Hutter 33 0 0 09 May 2025
LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency Xiao-Yin Liu Guotao Li Xiao-Hu Zhou Z. Hou OffRL 44 0 0 31 Dec 2024
Instruction-Guided Visual Masking Jinliang Zheng Jianxiong Li Si Cheng Yinan Zheng Jiaming Li Jihao Liu Yu Liu Jingjing Liu Xianyuan Zhan 53 5 0 30 May 2024
Hummer: Towards Limited Competitive Preference Dataset Li Jiang Yusen Wu Junwu Xiong Jingqing Ruan Yichuan Ding Qingpei Guo Zujie Wen Jun Zhou Xiaotie Deng 34 6 0 19 May 2024
DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning Jianxiong Li Jinliang Zheng Yinan Zheng Liyuan Mao Xiaoming Hu ... Jihao Liu Yu Liu Jingjing Liu Ya-Qin Zhang Xianyuan Zhan LM&Ro OffRL 37 8 0 28 Feb 2024
Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback Yifu Yuan Jianye Hao Yi Ma Zibin Dong Hebin Liang Jinyi Liu Zhixin Feng Kai-Wen Zhao Yan Zheng OffRL ALM 24 14 0 04 Feb 2024