CodeGen2: Lessons for Training LLMs on Programming and Natural Languages

3 May 2023

Erik Nijkamp

A. Ghobadzadeh

Caiming Xiong

Silvio Savarese

Yingbo Zhou

ArXiv PDF HTML

Papers citing "CodeGen2: Lessons for Training LLMs on Programming and Natural Languages"

50 / 96 papers shown

Title
Large Language Models for Computer-Aided Design: A Survey Licheng Zhang Bach Le Naveed Akhtar Siew-Kei Lam Tuan Ngo 3DV AI4CE 38 0 0 13 May 2025
BuildingBlock: A Hybrid Approach for Structured Building Generation Junming Huang Chi-Yin Wang Letian Li Changxin Huang Qiang Dai W. Xu 39 0 0 07 May 2025
An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding Xiuwei Shang Zhenkan Fu Shaoyin Cheng Guoqiang Chen Gangyang Li Li Hu W. Zhang N. Yu 62 0 0 30 Apr 2025
CrashFixer: A crash resolution agent for the Linux kernel Alex Mathai Chenxi Huang Suwei Ma Jihwan Kim Hailie Mitchell Aleksandr Nogikh Petros Maniatis Franjo Ivančić Junfeng Yang Baishakhi Ray 62 0 0 29 Apr 2025
CodeBC: A More Secure Large Language Model for Smart Contract Code Generation in Blockchain LingXiang Wang Hainan Zhang Qinnan Zhang Ziwei Wang Hongwei Zheng Jin Dong Zhiming Zheng 58 0 0 28 Apr 2025
A Simple Ensemble Strategy for LLM Inference: Towards More Stable Text Classification Junichiro Niimi 58 0 0 26 Apr 2025
AGENT: An Aerial Vehicle Generation and Design Tool Using Large Language Models Colin Samplawski Adam Cobb Susmit Jha LLMAG AI4CE 60 0 0 11 Apr 2025
Enhancing Code LLM Training with Programmer Attention Y. Zhang Chen Huang Z. Karas Dung T. Nguyen Kevin Leach Yu Huang 75 0 0 19 Mar 2025
Aligning Crowd-sourced Human Feedback for Reinforcement Learning on Code Generation by Large Language Models M. Wong C. Tan ALM 83 4 0 19 Mar 2025
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation K. Yan Hongcheng Guo Xuanqing Shi J. Xu Yaonan Gu Z. Li ALM 97 0 0 26 Feb 2025
Preference Optimization for Reasoning with Pseudo Feedback Fangkai Jiao Geyang Guo Xingxing Zhang Nancy F. Chen Shafiq R. Joty Furu Wei LRM 99 9 0 17 Feb 2025
LeDex: Training LLMs to Better Self-Debug and Explain Code Nan Jiang Xiaopeng Li Shiqi Wang Qiang Zhou Soneya Binta Hossain Baishakhi Ray Varun Kumar Xiaofei Ma Anoop Deoras LRM 92 11 0 17 Feb 2025
LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks Xin Zhou M. Weyssow Ratnadira Widyasari Ting Zhang Junda He Yunbo Lyu Jianming Chang Beiqi Zhang Dan Huang David Lo PILM 266 1 0 10 Feb 2025
QualityFlow: An Agentic Workflow for Program Synthesis Controlled by LLM Quality Checks Yaojie Hu Qiang Zhou Qihong Chen Xiaopeng Li Linbo Liu Dejiao Zhang Amit Kachroo Talha Oz Omer Tripp 66 4 0 20 Jan 2025
aiXcoder-7B: A Lightweight and Effective Large Language Model for Code Processing Siyuan Jiang Jia Li He Zong Huanyu Liu Hao Zhu ... Wei Ning G. Wang Yihong Dong Kechi Zhang Ge Li ALM 67 0 0 17 Jan 2025
Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries Dylan Manuel Nafis Tanveer Islam Joseph Khoury Ana Nunez E. Bou-Harb Peyman Najafirad 24 0 0 07 Nov 2024
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models Siming Huang Tianhao Cheng J.K. Liu Jiaran Hao L. Song ... Ge Zhang Zili Wang Yuan Qi Yinghui Xu Wei Chu ALM 77 17 0 07 Nov 2024
Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study André Storhaug Jingyue Li ALM 53 1 0 04 Nov 2024
Metamorphic Malware Evolution: The Potential and Peril of Large Language Models Pooria Madani 42 5 0 31 Oct 2024
Fine-Tuning LLMs for Code Mutation: A New Era of Cyber Threats Mohammad Setak Pooria Madani 32 2 0 29 Oct 2024
Decoding Secret Memorization in Code LLMs Through Token-Level Characterization Yuqing Nie Chong Wang K. Wang Guoai Xu Guosheng Xu Haoyu Wang OffRL 130 1 0 11 Oct 2024
LLM-Pilot: Characterize and Optimize Performance of your LLM Inference Services Małgorzata Łazuka Andreea Anghel Thomas Parnell 27 9 0 03 Oct 2024
Federated Instruction Tuning of LLMs with Domain Coverage Augmentation Zezhou Wang Yaxin Du Zhuzhong Qian Yugang Jiang Zhuzhong Qian Siheng Chen FedML 131 0 0 30 Sep 2024
Detecting Buggy Contracts via Smart Testing Sally Junsong Wang Jianan Yao Kexin Pei Hidedaki Takahashi Junfeng Yang 36 1 0 06 Sep 2024
Enhancing Source Code Security with LLMs: Demystifying The Challenges and Generating Reliable Repairs Nafis Tanveer Islam Joseph Khoury Andrew Seong E. Bou-Harb Peyman Najafirad AAML 25 3 0 01 Sep 2024
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models Le Xue Manli Shu Anas Awadalla Jun Wang An Yan ... Zeyuan Chen Silvio Savarese Juan Carlos Niebles Caiming Xiong Ran Xu VLM 44 90 0 16 Aug 2024
VerilogCoder: Autonomous Verilog Coding Agents with Graph-based Planning and Abstract Syntax Tree (AST)-based Waveform Tracing Tool Chia-Tung Ho Haoxing Ren Brucek Khailany 44 13 0 15 Aug 2024
AutoVCoder: A Systematic Framework for Automated Verilog Code Generation using LLMs Mingzhe Gao Jieru Zhao Zhe Lin Wenchao Ding Xiaofeng Hou Yu Feng Chao Li Minyi Guo OffRL 27 11 0 21 Jul 2024
LaMAGIC: Language-Model-based Topology Generation for Analog Integrated Circuits Chen-Chia Chang Yikang Shan Shaoze Fan Jing Li Shun Zhang Ningyuan Cao Yiran Chen Xin Zhang 29 9 0 19 Jul 2024
Dynamic Sentiment Analysis with Local Large Language Models using Majority Voting: A Study on Factors Affecting Restaurant Evaluation Junichiro Niimi 35 3 0 18 Jul 2024
Narrow Transformer: Starcoder-Based Java-LM For Desktop Kamalkumar Rathinasamy Balaji A J Ankush Kumar Gagan Gayari Harshini K Rajab Ali Mondal S. SreenivasaRaghavanK Swayam Singh 43 1 0 04 Jul 2024
NLPerturbator: Studying the Robustness of Code LLMs to Natural Language Variations Junkai Chen Zhenhao Li Xing Hu Xin Xia AAML 44 7 0 28 Jun 2024
INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness Hung Le Yingbo Zhou Caiming Xiong Silvio Savarese Doyen Sahoo 50 2 0 23 Jun 2024
A Systematic Literature Review on the Use of Machine Learning in Software Engineering Nyaga Fred I. O. Temkin 60 0 0 19 Jun 2024
VHDL-Eval: A Framework for Evaluating Large Language Models in VHDL Code Generation Prashanth Vijayaraghavan Luyao Shi S. Ambrogio C. Mackin Apoorva Nitsure David Beymer Ehsan Degan 24 6 0 06 Jun 2024
R2C2-Coder: Enhancing and Benchmarking Real-world Repository-level Code Completion Abilities of Code Large Language Models Ken Deng Jiaheng Liu He Zhu Congnan Liu Jingxin Li ... Yuanxing Zhang Wenbo Su Bangyu Xiang Tiezheng Ge Bo Zheng 47 2 0 03 Jun 2024
A Survey on Large Language Models for Code Generation Juyong Jiang Fan Wang Jiasi Shen Sungju Kim Sunghun Kim 47 161 0 01 Jun 2024
Optimizing Large Language Models for OpenAPI Code Completion Bohdan Petryshyn M. Lukoševičius LLMAG ALM 30 0 0 24 May 2024
Full Line Code Completion: Bringing AI to Desktop Anton Semenkin Vitaliy Bibaev Yaroslav Sokolov Kirill Krylov Alexey Kalina ... Mikhail Podvitskii Petr Surkov Yaroslav Golubev Nikita Povarov T. Bryksin 45 2 0 14 May 2024
Preble: Efficient Distributed Prompt Scheduling for LLM Serving Vikranth Srivatsa Zijian He Reyna Abhyankar Dongming Li Yiying Zhang 52 17 0 08 May 2024
NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts Shudan Zhang Hanlin Zhao Xiao Liu Qinkai Zheng Zehan Qi Xiaotao Gu Xiaohan Zhang Yuxiao Dong Jie Tang ELM 52 16 0 07 May 2024
When LLMs Meet Cybersecurity: A Systematic Literature Review Jie Zhang Haoyu Bu Hui Wen Yu Chen Lun Li Hongsong Zhu 42 36 0 06 May 2024
Continual Learning of Large Language Models: A Comprehensive Survey Haizhou Shi Zihao Xu Hengyi Wang Weiyi Qin Wenyuan Wang Yibin Wang Zifeng Wang Sayna Ebrahimi Hao Wang CLL KELM LRM 46 63 0 25 Apr 2024
Navigating the Landscape of Large Language Models: A Comprehensive Review and Analysis of Paradigms and Fine-Tuning Strategies Benjue Weng LM&MA 41 7 0 13 Apr 2024
CodeFort: Robust Training for Code Generation Models Yuhao Zhang Shiqi Wang Haifeng Qian Zijian Wang Mingyue Shang ... Sanjay Krishna Gouda Baishakhi Ray M. K. Ramanathan Xiaofei Ma Anoop Deoras 44 1 0 11 Apr 2024
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models Jiawei Guo Ziming Li Xueling Liu Kaijing Ma Tianyu Zheng ... Xingwei Qu Xiang Yue Ge Zhang Wenhu Chen Jie Fu KELM 59 12 0 04 Apr 2024
Exploring and Evaluating Hallucinations in LLM-Powered Code Generation Fang Liu Yang Liu Lin Shi Houkun Huang Ruifeng Wang Zhen Yang Li Zhang Zhongqi Li Yuchi Ma 52 108 0 01 Apr 2024
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? Junkai Chen Zhiyuan Pan Xing Hu Zhenhao Li Ge Li Xin Xia LRM 32 20 0 25 Mar 2024
Repoformer: Selective Retrieval for Repository-Level Code Completion Di Wu W. Ahmad Dejiao Zhang M. K. Ramanathan Xiaofei Ma 25 26 0 15 Mar 2024
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs Ben Athiwaratkun Sujan Kumar Gonugondla Sanjay Krishna Gouda Haifeng Qian Hantian Ding ... Liangfu Chen Parminder Bhatia Ramesh Nallapati Sudipta Sengupta Bing Xiang 51 4 0 13 Mar 2024