Title
WorldPM: Scaling Human Preference Modeling B. Wang Runji Lin K. Lu L. Yu Z. Zhang ... Xuanjing Huang Yu Jiang Bowen Yu J. Zhou Junyang Lin 19 0 0 15 May 2025
Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks Kai Xu YiWei Mao XinYi Guan ZiLong Feng 38 0 0 12 May 2025
Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data David de-Fitero-Dominguez Antonio Garcia-Cabot Eva García-López SyDa 61 0 0 12 May 2025
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch Zimu Lu Y. Yang Houxing Ren Haotian Hou Han Xiao Ke Wang Weikang Shi Aojun Zhou Mingjie Zhan H. Li LLMAG 45 0 0 06 May 2025
SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs Minh V.T. Pham Huy N. Phan Hoang N. Phan Cuong Le Chi T. Nguyen Nghi D. Q. Bui SyDa 24 0 0 20 Apr 2025
Inference-Time Scaling for Generalist Reward Modeling Zijun Liu P. Wang R. Xu Shirong Ma Chong Ruan Peng Li Yang Janet Liu Y. Wu OffRL LRM 46 10 0 03 Apr 2025
Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models Pin-Yu Chen Han Shen Payel Das Tianyi Chen 39 0 0 24 Mar 2025
ResBench: Benchmarking LLM-Generated FPGA Designs with Resource Awareness Ce Guo Tong Zhao 61 1 0 11 Mar 2025
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol Roham Koohestani Philippe de Bekker M. Izadi VLM 45 0 0 07 Mar 2025
Transferable Foundation Models for Geometric Tasks on Point Cloud Representations: Geometric Neural Operators Blaine Quackenbush P. Atzberger 3DPC AI4CE 65 2 0 06 Mar 2025
Advancing vision-language models in front-end development via data synthesis Tong Ge Yashu Liu Jieping Ye Tianyi Li Chao Wang 73 0 0 03 Mar 2025
Multi-Turn Code Generation Through Single-Step Rewards A. Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M. Rush Wenting Zhao Sanjiban Choudhury LRM 47 1 0 27 Feb 2025
Refine Knowledge of Large Language Models via Adaptive Contrastive Learning Yinghui Li Haojing Huang Jiayi Kuang Yangning Li Shu Guo C. Qu Xiaoyu Tan Hai-Tao Zheng Ying Shen Philip S. Yu CLL 66 5 0 11 Feb 2025
LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks Xin Zhou M. Weyssow Ratnadira Widyasari Ting Zhang Junda He Yunbo Lyu Jianming Chang Beiqi Zhang Dan Huang David Lo PILM 252 1 0 10 Feb 2025
Learning to Generate Unit Tests for Automated Debugging Archiki Prasad Elias Stengel-Eskin Justin Chih-Yao Chen Zaid Khan Mohit Bansal ELM 83 1 0 03 Feb 2025
Planning-Driven Programming: A Large Language Model Programming Workflow Chao Lei Yanchuan Chang N. Lipovetzky Krista A. Ehinger 81 2 0 10 Jan 2025
Transducer Tuning: Efficient Model Adaptation for Software Tasks Using Code Property Graphs Imam Nur Bani Yusuf Lingxiao Jiang 79 0 0 18 Dec 2024
Code LLMs: A Taxonomy-based Survey Nishat Raihan Christian D. Newman Marcos Zampieri 91 1 0 11 Dec 2024
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models Siming Huang Tianhao Cheng J.K. Liu Jiaran Hao L. Song ... Ge Zhang Zili Wang Yuan Qi Yinghui Xu Wei Chu ALM 77 17 0 07 Nov 2024
Bridge-Coder: Unlocking LLMs' Potential to Overcome Language Gaps in Low-Resource Code Jipeng Zhang Jianshu Zhang Yuanzhe Li Renjie Pi Rui Pan Runtao Liu Ziqiang Zheng Tong Zhang 36 0 0 24 Oct 2024
An LLM Agent for Automatic Geospatial Data Analysis Yuxing Chen Weijie Wang Sylvain Lobry Camille Kurtz LLMAG 32 3 0 24 Oct 2024
Understanding Layer Significance in LLM Alignment Guangyuan Shi Zexin Lu Xiaoyu Dong Wenlong Zhang Xuanyu Zhang Yujie Feng Xiao-Ming Wu 48 2 0 23 Oct 2024
RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style Yantao Liu Zijun Yao Rui Min Yixin Cao Lei Hou Juanzi Li OffRL ALM 20 26 0 21 Oct 2024
Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching Jie Peng Zhang Cao Huaizhi Qu Zhengyu Zhang Chang Guo Yanyong Zhang Zhichao Cao Tianlong Chen 34 2 0 17 Oct 2024
JudgeBench: A Benchmark for Evaluating LLM-based Judges Sijun Tan Siyuan Zhuang Kyle Montgomery William Y. Tang Alejandro Cuadron Chenguang Wang Raluca A. Popa Ion Stoica ELM ALM 51 37 0 16 Oct 2024
CursorCore: Assist Programming through Aligning Anything Hao Jiang Qi Liu Rui Li Shengyu Ye Shijin Wang 48 1 0 09 Oct 2024
In-Context Code-Text Learning for Bimodal Software Engineering Xunzhu Tang Liran Wang Yonghui Liu Linzheng Chai Jian Yang Zhoujun Li Haoye Tian Jacques Klein Tegawende F. Bissyande 22 0 0 08 Oct 2024
Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild Xinyu Zhao Guoheng Sun Ruisi Cai Yukun Zhou Pingzhi Li ... Binhang Yuan Hongyi Wang Ang Li Zhangyang Wang Tianlong Chen MoMe ALM 28 2 0 07 Oct 2024
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis Ulyana Piterbarg Lerrel Pinto Rob Fergus SyDa 37 2 0 03 Oct 2024
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment Yifan Zhang Ge Zhang Yue Wu Kangping Xu Quanquan Gu 40 3 0 03 Oct 2024
Speculative Coreset Selection for Task-Specific Fine-tuning Xiaoyu Zhang Juan Zhai Shiqing Ma Chao Shen Tianlin Li Weipeng Jiang Yang Liu 30 1 0 02 Oct 2024
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging Yuling Shi Songsong Wang Chengcheng Wan Xiaodong Gu ELM 29 6 0 02 Oct 2024
CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair Mingjie Liu Yun-Da Tsai Wenfei Zhou Haoxing Ren SyDa 3DV 45 6 0 19 Sep 2024
HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale Huy N. Phan Phong X. Nguyen Nghi D. Q. Bui LLMAG 33 11 0 09 Sep 2024
MergeRepair: An Exploratory Study on Merging Task-Specific Adapters in Code LLMs for Automated Program Repair Meghdad Dehghan Jie JW Wu Fatemeh H. Fard Ali Ouni MoMe 44 2 0 18 Aug 2024
Better Python Programming for all: With the focus on Maintainability Karthik Shivashankar Antonio Martini KELM 39 0 0 17 Aug 2024
CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs Weijie Lv Xuan Xia Sheng-Jun Huang ALM 34 2 0 05 Aug 2024
CodeV: Empowering LLMs with HDL Generation through Multi-Level Summarization Yang Zhao Di Huang Chongxiao Li Pengwei Jin Muxin Song ... Rui Zhang Xingui Hu Yunji Chen Qi Guo Xing Hu 69 22 0 15 Jul 2024
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study Shihan Dou Haoxiang Jia Shenxi Wu Huiyuan Zheng Weikang Zhou ... Xunliang Cai Tao Gui Xipeng Qiu Qi Zhang Xuanjing Huang 28 32 0 08 Jul 2024
InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct Yutong Wu Di Huang Wenxuan Shi Wei Wang Lingzhe Gao ... Qi Guo Yewen Pu Dawei Yin Xing Hu Yunji Chen SyDa 23 1 0 08 Jul 2024
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions Terry Yue Zhuo Minh Chien Vu Jenny Chim Han Hu Wenhao Yu ... David Lo Daniel Fried Xiaoning Du H. D. Vries Leandro von Werra 69 129 0 22 Jun 2024
InternLM-Law: An Open Source Chinese Legal Large Language Model Zhiwei Fei Songyang Zhang Xiaoyu Shen Dawei Zhu Xiao Wang ... Yining Li Wenwei Zhang Dahua Lin Kai Chen Jidong Ge ELM AILaw 49 3 0 21 Jun 2024
Qiskit HumanEval: An Evaluation Benchmark For Quantum Code Generative Models Sanjay Vishwakarma Francis Harkins Siddharth Golecha Vishal Sharathchandra Bajpe Nicolas Dupuis Luca Buratti David Kremer Ismael Faro Ruchir Puri Juan Cruz-Benito ELM 35 3 0 20 Jun 2024
SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking Zhuang Li Yuncheng Hua Thuy-Trang Vu Haolan Zhan Lizhen Qu Gholamreza Haffari 40 2 0 16 Jun 2024
Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming Victor-Alexandru Pădurean Adish Singla ELM 46 3 0 14 Jun 2024
Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback Hamish Ivison Yizhong Wang Jiacheng Liu Zeqiu Wu Valentina Pyatkin Nathan Lambert Noah A. Smith Yejin Choi Hannaneh Hajishirzi 44 38 0 13 Jun 2024
Leveraging Large Language Models for Efficient Failure Analysis in Game Development Leonardo Marini Linus Gisslén Alessandro Sestini 45 0 0 11 Jun 2024
Validating LLM-Generated Programs with Metamorphic Prompt Testing Xiaoyin Wang Dakai Zhu 29 3 0 11 Jun 2024
Improving Reward Models with Synthetic Critiques Zihuiwen Ye Fraser Greenlee-Scott Max Bartolo Phil Blunsom Jon Ander Campos Matthias Gallé ALM SyDa LRM 38 17 0 31 May 2024
Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning Code LLMs Zichao Hu Junyi Jessy Li Arjun Guha Joydeep Biswas SyDa ALM 51 1 0 30 May 2024