Title
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? Yunxiang Zhang Muhammad Khalifa Shitanshu Bhushan Grant D Murphy Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LLMAG ELM 64 0 0 13 Apr 2025
BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology Ludovico Mitchener Jon M. Laurent Benjamin Tenmann Siddharth Narayanan Geemi P Wellawatte A. White Lorenzo Sani Samuel G. Rodriques LLMAG LM&MA ELM 64 4 0 28 Feb 2025
Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows Fangyu Lei Jixuan Chen Yuxiao Ye Ruisheng Cao Dongchan Shin ... Caiming Xiong Ruoxi Sun Qian Liu Sida I. Wang Tao Yu LMTD 85 21 0 12 Nov 2024