Self-Consistency of the Internal Reward Models Improves Self-Rewarding Language Models

13 February 2025

Papers citing "Self-Consistency of the Internal Reward Models Improves Self-Rewarding Language Models"

1 / 1 papers shown

Title
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models Bang Zhang Ruotian Ma Qingxuan Jiang Peisong Wang Jiaqi Chen ... Fanghua Ye Jian Li Yifan Yang Zhaopeng Tu Xiaolong Li LLMAG ELM ALM 109 0 1 01 May 2025