Inverse Preference Learning: Preference-based RL without a Reward
Function

Inverse Preference Learning: Preference-based RL without a Reward Function

24 May 2023

Dorsa Sadigh

Papers citing "Inverse Preference Learning: Preference-based RL without a Reward Function"

16 / 16 papers shown

Title
Preference Optimization for Combinatorial Optimization Problems Mingjun Pan Guanquan Lin You-Wei Luo Bin Zhu Zhien Dai Lijun Sun Chun Yuan 28 0 0 13 May 2025
Policy-labeled Preference Learning: Is Preference Enough for RLHF? Taehyun Cho Seokhun Ju Seungyub Han Dohyeong Kim Kyungjae Lee Jungwoo Lee OffRL 29 0 0 06 May 2025
Aligning Crowd-sourced Human Feedback for Reinforcement Learning on Code Generation by Large Language Models M. Wong C. Tan ALM 83 4 0 19 Mar 2025
DPR: Diffusion Preference-based Reward for Offline Reinforcement Learning Teng Pang Bingzheng Wang Guoqiang Wu Yilong Yin OffRL 73 0 0 03 Mar 2025
Towards a Reward-Free Reinforcement Learning Framework for Vehicle Control Jielong Yang Daoyuan Huang 46 0 0 21 Feb 2025
Constraint Back-translation Improves Complex Instruction Following of Large Language Models Y. Qi Hao Peng Xinyu Wang Bin Xu Lei Hou Juanzi Li 64 1 0 31 Oct 2024
Aligning Human Motion Generation with Human Perceptions Haoru Wang Wentao Zhu Luyi Miao Yishu Xu Feng Gao Qi Tian Yizhou Wang EGVM 64 1 0 02 Jul 2024
Preference Elicitation for Offline Reinforcement Learning Alizée Pace Bernhard Schölkopf Gunnar Rätsch Giorgia Ramponi OffRL 69 1 0 26 Jun 2024
Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity Calarina Muslimani Bram Grooten Deepak Ranganatha Sastry Mamillapalli Mykola Pechenizkiy Decebal Constantin Mocanu Matthew E. Taylor 54 0 0 10 Jun 2024
Promptable Behaviors: Personalizing Multi-Objective Rewards from Human Preferences Minyoung Hwang Luca Weihs Chanwoo Park Kimin Lee Aniruddha Kembhavi Kiana Ehsani 35 18 0 14 Dec 2023
Direct Preference-Based Evolutionary Multi-Objective Optimization with Dueling Bandit Tian Huang Ke Li Ke Li 31 1 0 23 Nov 2023
LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning Outongyi Lv Bingxin Zhou OffRL 44 0 0 05 Jul 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 339 12,003 0 04 Mar 2022
Offline Reinforcement Learning with Implicit Q-Learning Ilya Kostrikov Ashvin Nair Sergey Levine OffRL 214 843 0 12 Oct 2021
What Matters in Learning from Offline Human Demonstrations for Robot Manipulation Ajay Mandlekar Danfei Xu J. Wong Soroush Nasiriany Chen Wang Rohun Kulkarni Li Fei-Fei Silvio Savarese Yuke Zhu Roberto Martín-Martín OffRL 161 475 0 06 Aug 2021
Early Detection of Combustion Instabilities using Deep Convolutional Selective Autoencoders on Hi-speed Flame Video Chandrayee Basu Qian Yang M. Singhal Anca Dragan 51 174 0 25 Mar 2016