Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

20 May 2025

Papers citing "Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective"

Title
No papers