Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest
Models Reward Hack

Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack

9 October 2024

Christoph Sträter

Maria Angelica Martinez

Papers citing "Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack"

Title
No papers