Benchmarking is Broken -- Don't Let AI be its Own Judge

v1v2 (latest)

Benchmarking is Broken -- Don't Let AI be its Own Judge

8 October 2025

Tassallah Abdullahi

João Alves Ribeiro

Christian Nielsen-Garcia

Seyed Ali Bahrainian

Mikołaj Glinka

Carsten Eickhoff

ArXiv (abs)PDF HTML

Papers citing "Benchmarking is Broken -- Don't Let AI be its Own Judge"

0 / 0 papers shown

Title
No papers found