Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning

Invariance in Policy Optimisation and Partial Identifiability in Reward Learning

14 March 2022

Matthew Farrugia-Roberts

Stuart J. Russell

Alessandro Abate

Adam Gleave

Papers citing "Invariance in Policy Optimisation and Partial Identifiability in Reward Learning"

11 / 11 papers shown

Title
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? Xueru Wen Jie Lou Yaojie Lu Hongyu Lin Xing Yu Xinyu Lu Xianpei Han Xianpei Han Debing Zhang Le Sun ALM 69 5 0 17 Feb 2025
Non-maximizing policies that fulfill multi-criterion aspirations in expectation Simon Dima Simon Fischer J. Heitzig Joss Oliver 28 1 0 08 Aug 2024
Towards the Transferability of Rewards Recovered via Regularized Inverse Reinforcement Learning Andreas Schlaginhaufen Maryam Kamgarpour OffRL 23 1 0 03 Jun 2024
A Generalized Acquisition Function for Preference-based Reward Learning Evan Ellis Gaurav R. Ghosal Stuart J. Russell Anca Dragan Erdem Biyik 42 2 0 09 Mar 2024
Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHF Anand Siththaranjan Cassidy Laidlaw Dylan Hadfield-Menell 36 58 0 13 Dec 2023
Automatic Pair Construction for Contrastive Post-training Canwen Xu Corby Rosset Ethan C. Chau Luciano Del Corro Shweti Mahajan Julian McAuley Jennifer Neville Ahmed Hassan Awadallah Nikhil Rao ALM 27 4 0 03 Oct 2023
Identifiability and Generalizability in Constrained Inverse Reinforcement Learning Andreas Schlaginhaufen Maryam Kamgarpour 29 10 0 01 Jun 2023
On The Fragility of Learned Reward Functions Lev McKinney Yawen Duan David M. Krueger Adam Gleave 33 20 0 09 Jan 2023
Misspecification in Inverse Reinforcement Learning Joar Skalse Alessandro Abate 33 22 0 06 Dec 2022
Calculus on MDPs: Potential Shaping as a Gradient Erik Jenner H. V. Hoof Adam Gleave 22 4 0 20 Aug 2022
A Primer on Maximum Causal Entropy Inverse Reinforcement Learning Adam Gleave Sam Toyer 29 13 0 22 Mar 2022