FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation

v1v2 (latest)

FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation

16 June 2025

ArXiv (abs)PDF HTML

Papers citing "FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation"

6 / 6 papers shown

Title
CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery Xiaoshuai Song Muxi Diao Guanting Dong Zhengyang Wang Yujia Fu ... Yejie Wang Zhuoma Gongque Jianing Yu Qiuna Tan Weiran Xu ELM 119 14 0 12 Jun 2024
Competition-Level Code Generation with AlphaCode Yujia Li David Choi Junyoung Chung Nate Kushman Julian Schrittwieser ... Esme Sutherland Robson Pushmeet Kohli Nando de Koray Kavukcuoglu Oriol Vinyals 143 1,413 0 08 Feb 2022
Program Synthesis with Large Language Models Jacob Austin Augustus Odena Maxwell Nye Maarten Bosma Henryk Michalewski ... Ellen Jiang Carrie J. Cai Michael Terry Quoc V. Le Charles Sutton ELM AIMat ReCod ALM 200 2,004 0 16 Aug 2021
Evaluating Large Language Models Trained on Code Mark Chen Jerry Tworek Heewoo Jun Qiming Yuan Henrique Pondé ... Bob McGrew Dario Amodei Sam McCandlish Ilya Sutskever Wojciech Zaremba ELM ALM 233 5,635 0 07 Jul 2021
Measuring Coding Challenge Competence With APPS Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora ... Collin Burns Samir Puranik Horace He Basel Alomair Jacob Steinhardt ELM AIMat ALM 257 703 0 20 May 2021
JuICe: A Large Scale Distantly Supervised Dataset for Open Domain Context-based Code Generation R. Agashe R. Campello Arthur Zimek 76 84 0 05 Oct 2019