Title
CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation Anirudh Khatry Robert Zhang Jia Pan Ziteng Wang Qiaochu Chen Greg Durrett Isil Dillig 62 0 0 21 Apr 2025
CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation Peiding Wang Lulu Zhang Fang Liu Lin Shi Minxiao Li Bo Shen An Fu ELM LRM 310 2 0 05 Mar 2025
Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code Shahin Honarvar Mark van der Wilk Alastair Donaldson 164 8 0 28 Jan 2025
LLM Hallucinations in Practical Code Generation: Phenomena, Mechanism, and Mitigation Ziyao Zhang Yanlin Wang Chong Wang Jiachi Chen Zibin Zheng 158 18 0 20 Jan 2025
The importance of visual modelling languages in generative software engineering Roberto Rossi 124 1 0 27 Nov 2024
MCCoder: Streamlining Motion Control with LLM-Assisted Code Generation and Rigorous Verification Yin Li Liangwei Wang Shiyuan Piao Boo-Ho Yang Ziyue Li Wei Zeng Fugee Tsung 64 0 0 19 Oct 2024
Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs Ishan Jindal Chandana Badrinath Pranjal Bharti Lakkidi Vinay Sachin Dev Sharma CLL ALM 57 2 0 14 Oct 2024
CursorCore: Assist Programming through Aligning Anything Hao Jiang Qi Liu Rui Li Shengyu Ye Shijin Wang 77 1 0 09 Oct 2024
CodeUpdateArena: Benchmarking Knowledge Editing on API Updates Zeyu Leo Liu Shrey Pandit Xi Ye Eunsol Choi Greg Durrett KELM ALM 97 6 0 08 Jul 2024
Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach Yuxuan Wan Chaozheng Wang Yi Dong Wenxuan Wang Shuqing Li Yintong Huo Michael R. Lyu 3DV 91 12 0 24 Jun 2024
ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation Houxing Ren Mingjie Zhan Zhongyuan Wu Aojun Zhou Junting Pan Hongsheng Li SyDa 70 7 0 27 May 2024
Recommender Systems in the Era of Large Language Models (LLMs) Zihuai Zhao Wenqi Fan Jiatong Li Yunqing Liu Xiaowei Mei ... Zhen Wen Fei Wang Xiangyu Zhao Jiliang Tang Qing Li KELM 98 336 0 05 Jul 2023
WizardCoder: Empowering Code Large Language Models with Evol-Instruct Ziyang Luo Can Xu Pu Zhao Qingfeng Sun Xiubo Geng Wenxiang Hu Chongyang Tao Jing Ma Qingwei Lin Daxin Jiang ELM SyDa ALM 79 678 0 14 Jun 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 316 4,288 0 09 Jun 2023
CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X Qinkai Zheng Xiao Xia Xu Zou Yuxiao Dong Shanshan Wang ... Andi Wang Yang Li Teng Su Zhilin Yang Jie Tang ELM ALM SyDa 99 335 0 30 Mar 2023
SantaCoder: don't reach for the stars! Loubna Ben Allal Raymond Li Denis Kocetkov Chenghao Mou Christopher Akiki ... Sean M. Hughes Daniel Fried Arjun Guha H. D. Vries Leandro von Werra 139 194 0 09 Jan 2023
Multi-lingual Evaluation of Code Generation Models Ben Athiwaratkun Sanjay Krishna Gouda Zijian Wang Xiaopeng Li Yuchen Tian ... Baishakhi Ray Parminder Bhatia Sudipta Sengupta Dan Roth Bing Xiang ELM 139 172 0 26 Oct 2022
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng Zhang Yuxiao Dong Jie Tang BDL LRM 344 1,090 0 05 Oct 2022
Competition-Level Code Generation with AlphaCode Yujia Li David Choi Junyoung Chung Nate Kushman Julian Schrittwieser ... Esme Sutherland Robson Pushmeet Kohli Nando de Koray Kavukcuoglu Oriol Vinyals 85 1,372 0 08 Feb 2022
Program Synthesis with Large Language Models Jacob Austin Augustus Odena Maxwell Nye Maarten Bosma Henryk Michalewski ... Ellen Jiang Carrie J. Cai Michael Terry Quoc V. Le Charles Sutton ELM AIMat ReCod ALM 184 1,937 0 16 Aug 2021
Evaluating Large Language Models Trained on Code Mark Chen Jerry Tworek Heewoo Jun Qiming Yuan Henrique Pondé ... Bob McGrew Dario Amodei Sam McCandlish Ilya Sutskever Wojciech Zaremba ELM ALM 207 5,513 0 07 Jul 2021
Measuring Coding Challenge Competence With APPS Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora ... Collin Burns Samir Puranik Horace He D. Song Jacob Steinhardt ELM AIMat ALM 243 679 0 20 May 2021
GLM: General Language Model Pretraining with Autoregressive Blank Infilling Zhengxiao Du Yujie Qian Xiao Liu Ming Ding J. Qiu Zhilin Yang Jie Tang BDL AI4CE 116 1,543 0 18 Mar 2021
Learning to Mine Aligned Code and Natural Language Pairs from Stack Overflow Pengcheng Yin Bowen Deng Edgar Chen Bogdan Vasilescu Graham Neubig 59 302 0 23 May 2018