GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning

28 May 2025

Papers citing "GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning"

4 / 4 papers shown

Title
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong Xuzhao Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Tianwei Zhang ALM ELM 253 7 0 26 Apr 2025
A Framework for Situating Innovations, Opportunities, and Challenges in Advancing Vertical Systems with Large AI Models Gaurav Verma Jiawei Zhou Mohit Chandra Srijan Kumar M. D. Choudhury 102 1 0 03 Apr 2025
Medical Hallucinations in Foundation Models and Their Impact on Healthcare Y. Kim Hyewon Jeong Shan Chen Shuyue Stella Li Mingyu Lu ... Daniel J. McDuff Hyeonhoon Lee Hae Won Park Samir Tulebaev C. Breazeal HILM 88 7 0 26 Feb 2025
CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery Xiaoshuai Song Muxi Diao Guanting Dong Zhengyang Wang Yujia Fu ... Yejie Wang Zhuoma Gongque Jianing Yu Qiuna Tan Weiran Xu ELM 169 15 0 12 Jun 2024