CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation

2 September 2021

ArXiv (abs)PDF HTML Github (2999★)

Papers citing "CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation"

50 / 638 papers shown

Title
Rome was Not Built in a Single Step: Hierarchical Prompting for LLM-based Chip Design Andre Nakkab Sai Qian Zhang Ramesh Karri Siddharth Garg 79 17 0 23 Jul 2024
Comparison of Static Application Security Testing Tools and Large Language Models for Repo-level Vulnerability Detection Xin Zhou Duc-Manh Tran Thanh Le-Cong Ting Zhang Ivana Clairine Irsan Joshua Sumarlin Bach Le David Lo ELM 85 12 0 23 Jul 2024
Empowering Agile-Based Generative Software Development through Human-AI Teamwork Sai Zhang Zhenchang Xing Ronghui Guo Fangzhou Xu Lei Chen Zhaoyuan Zhang Xiaowang Zhang Zhiyong Feng Zhiqiang Zhuang 71 4 0 22 Jul 2024
AutoVCoder: A Systematic Framework for Automated Verilog Code Generation using LLMs Mingzhe Gao Jieru Zhao Zhe Lin Wenchao Ding Xiaofeng Hou Yu Feng Chao Li Minyi Guo OffRL 72 17 0 21 Jul 2024
Unveiling the Decision-Making Process in Reinforcement Learning with Genetic Programming Manuel Eberhardinger Florian Rupp Johannes Maucher S. Maghsudi 68 0 0 20 Jul 2024
LLM-Empowered State Representation for Reinforcement Learning Boyuan Wang Yun Qu Yuhang Jiang Jianzhun Shao Chang-rui Liu Wenming Yang Xiangyang Ji 89 14 0 18 Jul 2024
SciCode: A Research Coding Benchmark Curated by Scientists Minyang Tian Luyu Gao Shizhuo Dylan Zhang Xinan Chen Cunwei Fan ... Tianhua Tao Ofir Press Jamie Callan Eliu A. Huerta Hao Peng ELM 90 26 0 18 Jul 2024
Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models Jia Zheng Boxi Cao Zhengzhao Ma Ruotong Pan Hongyu Lin Yaojie Lu Xianpei Han Le Sun ALM 95 5 0 16 Jul 2024
Curriculum Learning for Small Code Language Models Marwa Nair K. Yamani Lynda Said Lhadj Riyadh Baghdadi 42 9 0 14 Jul 2024
DeepCodeProbe: Towards Understanding What Models Trained on Code Learn Vahid Majdinasab Amin Nikanjam Foutse Khomh 70 1 0 11 Jul 2024
Learning Program Behavioral Models from Synthesized Input-Output Pairs Tural Mammadov Dietrich Klakow Alexander Koller Andreas Zeller 99 3 0 11 Jul 2024
Prompting Techniques for Secure Code Generation: A Systematic Investigation Catherine Tony Nicolás E. Díaz Ferreyra Markus Mutas Salem Dhiff Riccardo Scandariato SILM 146 14 0 09 Jul 2024
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study Shihan Dou Haoxiang Jia Shenxi Wu Huiyuan Zheng Weikang Zhou ... Xunliang Cai Tao Gui Xipeng Qiu Qi Zhang Xuanjing Huang 82 38 0 08 Jul 2024
InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct Yutong Wu Di Huang Wenxuan Shi Wei Wang Lingzhe Gao ... Qi Guo Yewen Pu Dawei Yin Xing Hu Yunji Chen SyDa 87 2 0 08 Jul 2024
Looking into Black Box Code Language Models Muhammad Umair Haider Umar Farooq A.B. Siddique Mark Marron 84 3 0 05 Jul 2024
An Empirical Study on Capability of Large Language Models in Understanding Code Semantics Thu-Trang Nguyen Thanh Trong Vu H. Vo Son Nguyen ELM 68 3 0 04 Jul 2024
Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval Jiexin Wang Xitong Luo Liuwen Cao Hongkui He Hailin Huang Jiayuan Xie Adam Jatowt Yi Cai ELM 72 17 0 02 Jul 2024
ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization Chunrong Fang Weisong Sun Yuchen Chen Xiao Chen Zhao Wei Quanjun Zhang Yudu You Bin Luo Yang Liu Zhenyu Chen AI4TS 125 14 0 01 Jul 2024
NLPerturbator: Studying the Robustness of Code LLMs to Natural Language Variations Junkai Chen Zhenhao Li Xing Hu Xin Xia AAML 105 9 0 28 Jun 2024
MALSIGHT: Exploring Malicious Source Code and Benign Pseudocode for Iterative Binary Malware Summarization Haolang Lu Hongrui Peng Guoshun Nan Jiaoyang Cui Cheng Wang Weifei Jin Songtao Wang Shengli Pan Xiaofeng Tao 69 4 0 26 Jun 2024
VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation Kun Qian Shunji Wan Claudia Tang Youzhi Wang Xuanming Zhang Maximillian Chen Zhou Yu AAML 93 12 0 25 Jun 2024
Retrieval-Augmented Code Generation for Situated Action Generation: A Case Study on Minecraft Chalamalasetti Kranti Sherzod Hakimov David Schlangen 74 3 0 25 Jun 2024
MPCODER: Multi-user Personalized Code Generator with Explicit and Implicit Style Representation Learning Zhenlong Dai Chang Yao Wenkang Han Ying Yuan Zhipeng Gao Jingyuan Chen 67 16 0 25 Jun 2024
NARRepair: Non-Autoregressive Code Generation Model for Automatic Program Repair Zhenyu Yang Zhen Yang Zhongxing Yu 62 1 0 24 Jun 2024
UniCoder: Scaling Code Large Language Model via Universal Code Tao Sun Linzheng Chai Jian Yang Yuwei Yin Hongcheng Guo Jiaheng Liu Bing Wang Liqun Yang Zhoujun Li OffRL LRM 112 21 0 24 Jun 2024
Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs Ahmad Mohsin Helge Janicke Adrian Wood Iqbal H. Sarker Leandros A. Maglaras N. Janjua 101 16 0 18 Jun 2024
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content Joao Monteiro Pierre-Andre Noel Étienne Marcotte Sai Rajeswar Valentina Zantedeschi David Vazquez Nicolas Chapados Christopher Pal Perouz Taslakian 65 7 0 17 Jun 2024
A Critical Study of What Code-LLMs (Do Not) Learn Abhinav Anand Shweta Verma Krishna Narasimhan Mira Mezini 84 4 0 17 Jun 2024
AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology Minh Huynh Nguyen Thang Phan Chau Phong X. Nguyen Nghi D. Q. Bui 90 15 0 16 Jun 2024
Out of style: Misadventures with LLMs and code style transfer Karl Munson Chih-Kai Ting Serenity Wade Anish Savla Julian T Dolby Kiran Kate Kavitha Srinivas 39 0 0 14 Jun 2024
Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models Jie Chen Xintian Han Yu Ma Xun Zhou Liang Xiang ALM LRM 69 2 0 14 Jun 2024
Cross-Modality Program Representation Learning for Electronic Design Automation with High-Level Synthesis Zongyue Qin Yunsheng Bai Atefeh Sohrabizadeh Zijian Ding Ziniu Hu Yizhou Sun Jason Cong 84 2 0 13 Jun 2024
Leveraging Large Language Models for Efficient Failure Analysis in Game Development Leonardo Marini Linus Gisslén Alessandro Sestini 99 0 0 11 Jun 2024
An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection Shenao Yan Shen Wang Yue Duan Hanbin Hong Kiho Lee Doowon Kim Yuan Hong AAML SILM 76 26 0 10 Jun 2024
Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models Aidan Z. H. Yang Haoye Tian He Ye Ruben Martins Claire Le Goues 55 5 0 09 Jun 2024
Enhancing Repository-Level Code Generation with Integrated Contextual Information Zhiyuan Pan Xing Hu Xin Xia Xiaohu Yang 49 5 0 05 Jun 2024
R2C2-Coder: Enhancing and Benchmarking Real-world Repository-level Code Completion Abilities of Code Large Language Models Ken Deng Jiaheng Liu He Zhu Congnan Liu Jingxin Li ... Yuanxing Zhang Wenbo Su Bangyu Xiang Tiezheng Ge Bo Zheng 104 4 0 03 Jun 2024
A Survey on Large Language Models for Code Generation Juyong Jiang Fan Wang Jiasi Shen Sungju Kim Sunghun Kim 132 203 0 01 Jun 2024
Confidence-Aware Sub-Structure Beam Search (CABS): Mitigating Hallucination in Structured Data Generation with Large Language Models Chengwei Wei Kee Kiat Koo Amir Tavanaei Karim Bouyarmane 73 1 0 30 May 2024
Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation Jingchang Chen Hongxuan Tang Zheng Chu Qianglong Chen Zekun Wang Ming Liu Bing Qin 125 6 0 30 May 2024
GenKubeSec: LLM-Based Kubernetes Misconfiguration Detection, Localization, Reasoning, and Remediation Ehud Malul Yair Meidan D. Mimran Yuval Elovici A. Shabtai 101 5 0 30 May 2024
Dataflow-Guided Retrieval Augmentation for Repository-Level Code Completion Wei Cheng Yuhan Wu Wei Hu 74 12 0 30 May 2024
Source Code Foundation Models are Transferable Binary Analysis Knowledge Bases Zian Su Xiangzhe Xu Ziyang Huang Kaiyuan Zhang Xiangyu Zhang 86 8 0 30 May 2024
ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation Houxing Ren Mingjie Zhan Zhongyuan Wu Aojun Zhou Junting Pan Hongsheng Li SyDa 120 7 0 27 May 2024
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting Tong Ye Yangkai Du Tengfei Ma Lingfei Wu Xuhong Zhang Shouling Ji Wenhai Wang DeLMO 80 11 0 25 May 2024
Large Language Models Meet NLP: A Survey Libo Qin Qiguang Chen Xiachong Feng Yang Wu Yongheng Zhang Hai-Tao Zheng Min Li Wanxiang Che Philip S. Yu ALM LM&MA ELM LRM 121 59 0 21 May 2024
MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation Jianbo Dai Jianqiao Lu Yunlong Feng Rongju Ruan Ming Cheng Haochen Tan Zhijiang Guo ELM LRM 113 16 0 19 May 2024
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving Md. Ashraful Islam Mohammed Eunus Ali Md. Rizwan Parvez SyDa 110 69 0 18 May 2024
IntelliExplain: Enhancing Interactive Code Generation through Natural Language Explanations for Non-Professional Programmers Hao Yan Thomas D. Latoza Ziyu Yao LRM 82 0 0 16 May 2024
IGOT: Information Gain Optimized Tokenizer on Domain Adaptive Pretraining Dawei Feng Yihai Zhang Zhixuan Xu SyDa 45 0 0 16 May 2024