reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs

14 March 2025

Papers citing "reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs"

2 / 2 papers shown

Title
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages Zhilin Wang Jiaqi Zeng Olivier Delalleau Hoo-Chang Shin Felipe Soares Alexander Bukharin Ellie Evans Yi Dong Oleksii Kuchaiev 17 0 0 16 May 2025
Adversarial Training of Reward Models Alexander Bukharin Haifeng Qian Shengyang Sun Adithya Renduchintala Soumye Singhal Zhilin Wang Oleksii Kuchaiev Olivier Delalleau T. Zhao AAML 32 0 0 08 Apr 2025