CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation

2 September 2021

ArXiv (abs)PDF HTML Github (2999★)

Papers citing "CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation"

50 / 638 papers shown

Title
Analyzing PDFs like Binaries: Adversarially Robust PDF Malware Analysis via Intermediate Representation and Language Model Side Liu Jiang Ming Guodong Zhou Xinyi Liu Jianming Fu Guojun Peng AAML 7 0 0 20 Jun 2025
code_transformed: The Influence of Large Language Models on Code Yuliang Xu Siming Huang Mingmeng Geng Yao Wan Xuanhua Shi Dongping Chen 13 0 0 13 Jun 2025
Textual Bayes: Quantifying Uncertainty in LLM-Based Systems Brendan Leigh Ross Noël Vouitsis Atiyeh Ashari Ghomi Rasa Hosseinzadeh Ji Xin ... Yi Sui Shiyi Hou Kin Kwan Leung Gabriel Loaiza-Ganem Jesse C. Cresswell 57 0 0 11 Jun 2025
Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning Maor Ashkenazi Ofir Brenner Tal Furman Shohet Eran Treister 43 0 0 06 Jun 2025
A Systematic Review of Poisoning Attacks Against Large Language Models Neil Fendley Edward W. Staley Joshua Carney William Redman Marie Chau Nathan G. Drenkow AAML PILM 16 0 0 06 Jun 2025
A Multi-Dataset Evaluation of Models for Automated Vulnerability Repair Zanis Ali Khan Aayush Garg Qiang Tang 141 0 0 05 Jun 2025
Rethinking the effects of data contamination in Code Intelligence Zhen Yang Hongyi Lin Yifan He Jie Xu Zeyu Sun Shuo Liu P. Wang Zhongxing Yu Qingyuan Liang 38 0 0 03 Jun 2025
CODEMENV: Benchmarking Large Language Models on Code Migration Keyuan Cheng Xudong Shen Yihao Yang Tengyue Wang Yang Cao Muhammad Asif Ali Hanbin Wang Lijie Hu Di Wang 37 3 0 01 Jun 2025
Earley-Driven Dynamic Pruning for Efficient Structured Decoding Xintong Sun Chi Wei Minghao Tian Shiwen Ni 28 0 0 01 Jun 2025
From Knowledge to Noise: CTIM-Rover and the Pitfalls of Episodic Memory in Software Engineering Agents Tobias Lindenbauer Georg Groh Hinrich Schütze 12 0 0 29 May 2025
VulBinLLM: LLM-powered Vulnerability Detection for Stripped Binaries Nasir Hussain Haohan Chen Chanh Tran Philip Huang Zhuohao Li Pravir Chugh William Chen Ashish Kundu Yuan Tian 23 0 0 28 May 2025
LLM-BSCVM: An LLM-Based Blockchain Smart Contract Vulnerability Management Framework Yanli Jin Chunpei Li Peng Fan Peng Liu Xianxian Li Chen Liu Wangjie Qiu 29 0 0 23 May 2025
LogiCase: Effective Test Case Generation from Logical Description in Competitive Programming Sicheol Sung Aditi Dogyu kim Yo-Sub Han Sang-Ki Ko ELM 41 1 0 21 May 2025
LEANCODE: Understanding Models Better for Code Simplification of Pre-trained Large Language Models Yan Wang Ling Ding Tien N Nguyen Shaohua Wang Yanan Zheng 39 0 0 20 May 2025
Structure-Aware Corpus Construction and User-Perception-Aligned Metrics for Large-Language-Model Code Completion Dengfeng Liu Jucai Zhai Xiaoguang Jiang Ziqun Li Qianjin Yu ... Rui Ye Huang Liu Zhiguo Yang Yongsheng Du Fang Tan 86 0 0 19 May 2025
Advancing Software Quality: A Standards-Focused Review of LLM-Based Assurance Techniques Avinash Patil 100 0 0 19 May 2025
ZenFlow: Enabling Stall-Free Offloading Training via Asynchronous Updates Tingfeng Lan Yusen Wu Bin Ma Zhaoyuan Su Rui Yang Tekin Bicer Dong Li Yue Cheng 209 0 0 18 May 2025
Recursive Question Understanding for Complex Question Answering over Heterogeneous Personal Data Philipp Christmann Gerhard Weikum 73 0 0 17 May 2025
VeriThoughts: Enabling Automated Verilog Code Generation using Reasoning and Formal Verification Patrick Yubeaton Andre Nakkab Weihua Xiao Luca Collini Ramesh Karri Chinmay Hegde Siddharth Garg LRM 17 1 0 16 May 2025
Rethinking Repetition Problems of LLMs in Code Generation Yihong Dong Yuchen Liu Xue Jiang Zhi Jin Ge Li 56 1 0 15 May 2025
Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data David de-Fitero-Dominguez Antonio Garcia-Cabot Eva García-López SyDa 110 0 0 12 May 2025
RuleGenie: SIEM Detection Rule Set Optimization Akansha Shukla Parth A. Gandhi Yuval Elovici A. Shabtai AAML 97 0 0 10 May 2025
SweRank: Software Issue Localization with Code Ranking R. Reddy Tarun Suresh JaeHyeok Doo Yang Liu Xuan-Phi Nguyen Yingbo Zhou Semih Yavuz Caiming Xiong Heng Ji Shafiq Joty 75 0 0 07 May 2025
QiMeng-Xpiler: Transcompiling Tensor Programs for Deep Learning Systems with a Neural-Symbolic Approach Shouyang Dong Yuanbo Wen Jun Bi Di Huang Jiaming Guo ... Yifan Hao Xuehai Zhou Tianshi Chen Qi Guo Yunji Chen 43 1 0 04 May 2025
An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding Xiuwei Shang Zhenkan Fu Shaoyin Cheng Guoqiang Chen Gangyang Li Li Hu Weinan Zhang N. Yu 94 0 0 30 Apr 2025
Large Language Models are Qualified Benchmark Builders: Rebuilding Pre-Training Datasets for Advancing Code Intelligence Tasks Kang Yang Xinjun Mao Shangwen Wang Yanjie Wang Tanghaoran Zhang Bo Lin Yihao Qin Zhang Zhang Yao Lu Kamal Al-Sabahi ALM 283 1 0 28 Apr 2025
ClarifyCoder: Clarification-Aware Fine-Tuning for Programmatic Problem Solving Jie JW Wu Manav Chaudhary Davit O. Abrahamyan Arhaan Khaku Anjiang Wei Fatemeh H. Fard SyDa 75 0 0 23 Apr 2025
Automated Static Vulnerability Detection via a Holistic Neuro-symbolic Approach Penghui Li Songchen Yao Josef Sarfati Korich Changhua Luo Jianjia Yu Yinzhi Cao Junfeng Yang 459 0 0 22 Apr 2025
Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs Marina Sakharova Abhinav Anand Mira Mezini 132 0 0 21 Apr 2025
Iterative Self-Training for Code Generation via Reinforced Re-Ranking Nikita Sorokin I. Sedykh Valentin Malykh 37 1 0 13 Apr 2025
ML For Hardware Design Interpretability: Challenges and Opportunities Raymond Baartmans Andrew Ensinger Victor Agostinelli Lizhong Chen 85 0 0 11 Apr 2025
DocAgent: A Multi-Agent System for Automated Code Documentation Generation Dayu Yang Antoine Simoulin Xin Qian Xiaoyi Liu Yuwei Cao Zhaopu Teng Grey Yang LLMAG 143 0 0 11 Apr 2025
LSR-MCTS: Alleviating Long Range Dependency in Code Generation Tingwei Lu Yangning Li Liyuan Wang Binghuai Lin Jiwei Tang ... Wanshi Xu Hai-Tao Zheng Yinghui Li Xin Su Zifei Shan LLMAG 111 1 0 10 Apr 2025
Zero-Shot Cross-Domain Code Search without Fine-Tuning Keyu Liang Ziqiang Liu Chao Liu Zhiyuan Wan David Lo Xiaohu Yang 63 0 0 10 Apr 2025
DeCoMa: Detecting and Purifying Code Dataset Watermarks through Dual Channel Code Abstraction Yuan Xiao Yuchen Chen Shiqing Ma Haocheng Huang Chunrong Fang Yuxiao Chen Weisong Sun Yunfeng Zhu Xinming Zhang Zhenyu Chen 59 0 0 09 Apr 2025
RETROcode: Leveraging a Code Database for Improved Natural Language to Code Generation Nathanael Beau Benoît Crabbé 104 0 0 08 Apr 2025
Generative Large Language Model usage in Smart Contract Vulnerability Detection Peter Ince Jiangshan Yu Joseph K. Liu Xiaoning Du 94 0 0 07 Apr 2025
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs Wasi Uddin Ahmad Aleksander Ficek Mehrzad Samadi Jocelyn Huang Vahid Noroozi Somshubra Majumdar Boris Ginsburg ALM 93 2 0 05 Apr 2025
On Benchmarking Code LLMs for Android Malware Analysis Yiling He Hongyu She Xingzhi Qian Xinran Zheng Zhuo Chen Zhan Qin Lorenzo Cavallaro ELM 118 1 0 01 Apr 2025
Carbon Footprint Evaluation of Code Generation through LLM as a Service Tina Vartziotis Maximilian Schmidt George Dasoulas Ippolyti Dellatolas Stefano Attademo Viet Dung Le Anke Wiechmann Tim Hoffmann Michael Keckeisen S. Kotsopoulos 61 2 0 30 Mar 2025
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding Indraneil Paul Haoyi Yang Goran Glavaš Kristian Kersting Iryna Gurevych AAML SyDa 90 2 0 27 Mar 2025
ModiGen: A Large Language Model-Based Workflow for Multi-Task Modelica Code Generation Jiahui Xiang Tong Ye Peiyu Liu Yinan Zhang Wenhai Wang 74 0 0 24 Mar 2025
On Explaining (Large) Language Models For Code Using Global Code-Based Explanations David Nader-Palacio Dipin Khati Daniel Rodríguez-Cárdenas Alejandro Velasco Denys Poshyvanyk LRM 79 0 0 21 Mar 2025
Large Language Models (LLMs) for Source Code Analysis: applications, models and datasets Hamed Jelodar Mohammad Meymani Roozbeh Razavi-Far 108 2 0 21 Mar 2025
LLM-Aided Customizable Profiling of Code Data Based On Programming Language Concepts Pankaj Thorat Adnan Qidwai Adrija Dhar Aishwariya Chakraborty Anand Eswaran Hima Patel Praveen Jayachandran 87 0 0 19 Mar 2025
Enhancing Code LLM Training with Programmer Attention Y. Zhang Chen Huang Z. Karas Dung T. Nguyen Kevin Leach Yu Huang 153 1 0 19 Mar 2025
Speculative Decoding for Verilog: Speed and Quality, All in One Changran Xu Yi Liu Yunhao Zhou Shan Huang Ningyi Xu Qiang Xu 58 0 0 18 Mar 2025
Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution Zhi Chen Wei Ma Lingxiao Jiang LLMAG 114 0 0 16 Mar 2025
TFHE-Coder: Evaluating LLM-agentic Fully Homomorphic Encryption Code Generation Mayank Kumar Jinbao Xue Mengxin Zheng Qian Lou 134 3 0 15 Mar 2025
ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning Xinyi Wang Jiashui Wang Peng Chen Jinbo Su Yanming Liu ... Xiang Li Kai Yun Qiyuan Chen Rongze Chen Chunfu Jia 96 0 0 14 Mar 2025