Benchmarking Data Science Agents

Benchmarking Data Science Agents

27 February 2024

Yuqing Yang

Papers citing "Benchmarking Data Science Agents"

7 / 7 papers shown

Title
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering Rushi Qiang Yuchen Zhuang Yinghao Li D. Kilman Rongzhi Zhang ... Ian Shu-Hei Wong Sherry Yang Percy Liang Chao Zhang Bo Dai ELM 41 0 0 12 May 2025
Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets Tommaso Bendinelli Artur Dox Christian Holz LLMAG 71 0 0 09 Mar 2025
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol Roham Koohestani Philippe de Bekker M. Izadi VLM 45 0 0 07 Mar 2025
InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation Gaurav Sahu Abhay Puri Juan A. Rodriguez Alexandre Drouin Perouz Taslakian ... Christopher Pal Nicolas Chapados I. Laradji Sai Rajeswar Mudumba Issam Hadj Laradji ELM 48 4 0 08 Jul 2024
VisEval: A Benchmark for Data Visualization in the Era of Large Language Models Nan Chen Yuge Zhang Jiahang Xu Kan Ren Yuqing Yang 37 9 0 01 Jul 2024
What Makes Good In-Context Examples for GPT- $3$ ? Jiachang Liu Dinghan Shen Yizhe Zhang Bill Dolan Lawrence Carin Weizhu Chen AAML RALM 275 1,312 0 17 Jan 2021
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 246 4,489 0 23 Jan 2020