CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation

2 September 2021

ArXiv (abs)PDF HTML Github (2999★)

Papers citing "CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation"

50 / 638 papers shown

Title
Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models Xin Jin Jonathan Larson Weiwei Yang Zhiqiang Lin ELM 48 24 0 15 Dec 2023
Dynamic Retrieval-Augmented Generation Anton Shapkin Denis Litvinov Yaroslav Zharov Egor Bogomolov Timur Galimzyanov T. Bryksin SyDa RALM 57 1 0 14 Dec 2023
INSPECT: Intrinsic and Systematic Probing Evaluation for Code Transformers Anjan Karmakar Romain Robbes 75 4 0 08 Dec 2023
Out of Context: How important is Local Context in Neural Program Repair? Julian Aron Prenner Romain Robbes 74 9 0 08 Dec 2023
Graph Convolutions Enrich the Self-Attention in Transformers! Jeongwhan Choi Hyowon Wi Jayoung Kim Yehjin Shin Kookjin Lee Nathaniel Trask Noseong Park 110 5 0 07 Dec 2023
Magicoder: Empowering Code Generation with OSS-Instruct Yuxiang Wei Zhe Wang Jiawei Liu Yifeng Ding Lingming Zhang SyDa 103 118 0 04 Dec 2023
A Machine Learning Approach Towards SKILL Code Autocompletion Enrique Dehaerne Bappaditya Dey Wannes Meert 41 0 0 04 Dec 2023
Nova: Generative Language Models for Assembly Code with Hierarchical Attention and Contrastive Learning Nan Jiang Chengxiao Wang Kevin Liu Xiangzhe Xu Lin Tan Xiangyu Zhang OffRL 81 8 0 22 Nov 2023
Naturalness of Attention: Revisiting Attention in Code Language Models M. Saad Tushar Sharma 77 2 0 22 Nov 2023
Interpreting User Requests in the Context of Natural Language Standing Instructions Nikita Moghe Patrick Xia Jacob Andreas J. Eisner Benjamin Van Durme Harsh Jhamtani 84 4 0 16 Nov 2023
GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization in Programming Language Understanding Andor Diera Abdelhalim Hafedh Dahou Lukas Galke Fabian Karl Florian Sihler A. Scherp ELM 61 5 0 16 Nov 2023
Language Models are Better Bug Detector Through Code-Pair Classification Kamel Alrashedy Ahmed Binjahlan 26 6 0 14 Nov 2023
An Extensive Study on Adversarial Attack against Pre-trained Models of Code Xiaohu Du Ming Wen Zichao Wei Shangwen Wang Hai Jin AAML 85 18 0 13 Nov 2023
DocGen: Generating Detailed Parameter Docstrings in Python Vatsal Venkatkrishna Durga Shree Nagabushanam Emmanuel Iko-Ojo Simon M. Vidoni 41 0 0 11 Nov 2023
Learning Defect Prediction from Unrealistic Data Kamel Alrashedy Vincent J. Hellendoorn Alessandro Orso 58 6 0 02 Nov 2023
Will Code Remain a Relevant User Interface for End-User Programming with Generative AI Models? Advait Sarkar 74 18 0 01 Nov 2023
Data Augmentation for Code Translation with Comparable Corpora and Multiple References Yiqing Xie Atharva Naik Daniel Fried Carolyn Rose 73 7 0 01 Nov 2023
Pitfalls in Language Models for Code Intelligence: A Taxonomy and Survey Xinyu She Yue Liu Yanjie Zhao Yiling He Li Li Chakkrit Tantithamthavorn Zhan Qin Haoyu Wang ELM 99 14 0 27 Oct 2023
CodeFusion: A Pre-trained Diffusion Model for Code Generation Mukul Singh J. Cambronero Sumit Gulwani Vu Le Carina Negreanu Gust Verbruggen 84 33 0 26 Oct 2023
FormaT5: Abstention and Examples for Conditional Table Formatting with Natural Language Mukul Singh J. Cambronero Sumit Gulwani Vu Le Carina Negreanu Elnaz Nouri Mohammad Raza Gust Verbruggen LMTD 74 9 0 26 Oct 2023
$TST$^\mathrm{R}$: Target Similarity Tuning Meets the Real World$ TST $^\mathrm{R}$ : Target Similarity Tuning Meets the Real World Anirudh Khatry Sumit Gulwani Priyanshu Gupta Vu Le Ananya Singha Mukul Singh Gust Verbruggen 37 1 0 26 Oct 2023
Language Agnostic Code Embeddings Saiteja Utpala Alex Gu Pin-Yu Chen 68 1 0 25 Oct 2023
Understanding Code Semantics: An Evaluation of Transformer Models in Summarization Debanjan Mondal Abhilasha Lodha Ankita Sahoo Beena Kumari 82 0 0 25 Oct 2023
Enhancing Large Language Models for Secure Code Generation: A Dataset-driven Study on Vulnerability Mitigation Jiexin Wang Liuwen Cao Xitong Luo Zhiping Zhou Jiayuan Xie Adam Jatowt Yi Cai 64 14 0 25 Oct 2023
Cross-lingual Transfer in Programming Languages: An Extensive Empirical Study Razan Baltaji Saurabh Pujar Louis Mandel Martin Hirzel Luca Buratti Lav Varshney 40 3 0 25 Oct 2023
White-box Compiler Fuzzing Empowered by Large Language Models Chenyuan Yang Yinlin Deng Runyu Lu Jiayi Yao Jiawei Liu Reyhaneh Jabbarvand Lingming Zhang 84 36 0 24 Oct 2023
CP-BCS: Binary Code Summarization Guided by Control Flow Graph and Pseudo Code Tong Ye Lingfei Wu Tengfei Ma Xuhong Zhang Yangkai Du Peiyu Liu Shouling Ji Wenhai Wang 59 14 0 24 Oct 2023
SteloCoder: a Decoder-Only LLM for Multi-Language to Python Code Translation Jialing Pan Adrien Sadé Jin Kim Eric Soriano Guillem Sole Sylvain Flamant SyDa 46 16 0 24 Oct 2023
Exploring the Potential of Large Language Models in Generating Code-Tracing Questions for Introductory Programming Courses Aysa Xuemo Fan Ranran Haoran Zhang Luc Paquette Rui Zhang AI4Ed 40 3 0 23 Oct 2023
LUNA: A Model-Based Universal Analysis Framework for Large Language Models Da Song Xuan Xie Jiayang Song Derui Zhu Yuheng Huang Felix Juefei Xu Lei Ma ALM 101 6 0 22 Oct 2023
Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis P. Gorinski Matthieu Zimmer Gerasimos Lampouras Derrick-Goh-Xin Deik Ignacio Iacobacci ALM OffRL 95 3 0 20 Oct 2023
Automated Repair of Declarative Software Specifications in the Era of Large Language Models Md Rashedul Hasan Jiawei Li Iftekhar Ahmed Hamid Bagheri 84 3 0 19 Oct 2023
CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code Completion Yangruibo Ding Zijian Wang Wasi Uddin Ahmad Hantian Ding Ming Tan ... M. K. Ramanathan Ramesh Nallapati Parminder Bhatia Dan Roth Bing Xiang ELM 102 131 0 17 Oct 2023
Functional Overlap Reranking for Neural Code Generation H. To Minh Huynh Nguyen Nghi D. Q. Bui 52 4 0 16 Oct 2023
Large Language Model-Aware In-Context Learning for Code Generation Jia Li Ge Li Chongyang Tao Jia Li Huangzhao Zhang Fang Liu Zhi Jin 72 35 0 15 Oct 2023
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules Hung Le Hailin Chen Amrita Saha Akash Gokul Doyen Sahoo Shafiq Joty LRM 106 47 0 13 Oct 2023
Lemur: Harmonizing Natural Language and Code for Language Agents Yiheng Xu Hongjin Su Chen Xing Boyu Mi Qian Liu ... Siheng Zhao Lingpeng Kong Bailin Wang Caiming Xiong Tao Yu 93 74 0 10 Oct 2023
Benchmarking and Explaining Large Language Model-based Code Generation: A Causality-Centric Approach Zhenlan Ji Pingchuan Ma Zongjie Li Shuai Wang 70 23 0 10 Oct 2023
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model Peng Di Jianguo Li Hang Yu Wei Jiang Wenting Cai ... Zelin Zhao Xunjin Zheng Hailian Zhou Lifu Zhu Xianying Zhu ELM ALM AI4CE 100 14 0 10 Oct 2023
LLM for SoC Security: A Paradigm Shift Dipayan Saha Shams Tarek Katayoon Yahyaei S. Saha Jingbo Zhou M. Tehranipoor Farimah Farahmandi 163 54 0 09 Oct 2023
Optimizing Large Language Models to Expedite the Development of Smart Contracts Nii Osae Osae Dade Margaret Lartey-Quaye Emmanuel Teye-Kofi Odonkor Paul Ammah 91 4 0 08 Oct 2023
Zero-Shot Detection of Machine-Generated Codes Xianjun Yang Kexun Zhang Haifeng Chen Linda R. Petzold William Y. Wang Wei Cheng DeLMO 81 15 0 08 Oct 2023
CodeTransOcean: A Comprehensive Multilingual Benchmark for Code Translation Weixiang Yan Yuchen Tian Yunzhe Li Qian Chen Wen Wang 119 42 0 08 Oct 2023
Confronting Reward Model Overoptimization with Constrained RLHF Ted Moskovitz Aaditya K. Singh DJ Strouse Tuomas Sandholm Ruslan Salakhutdinov Anca D. Dragan Stephen Marcus McAleer 103 55 0 06 Oct 2023
$$\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis$ $\mathcal{B}$ -Coder: Value-Based Deep Reinforcement Learning for Program Synthesis Zishun Yu Yunzhe Tao Liyu Chen Tao Sun Hongxia Yang 83 13 0 04 Oct 2023
A Survey of GPT-3 Family Large Language Models Including ChatGPT and GPT-4 Katikapalli Subramanyam Kalyan LM&MA AI4CE LRM AILaw ELM 129 248 0 04 Oct 2023
Automated Bug Generation in the era of Large Language Models Reyhaneh Jabbarvand Yang Chen Ryan Rong Reyhaneh Jabbarvand 76 4 0 03 Oct 2023
CAT-LM: Training Language Models on Aligned Code And Tests Nikitha Rao Kush Jain Uri Alon Claire Le Goues Vincent J. Hellendoorn ALM 83 47 0 02 Oct 2023
Gotcha! This Model Uses My Code! Evaluating Membership Leakage Risks in Code Models Zhou Yang Zhipeng Zhao Chenyu Wang Jieke Shi Dongsum Kim Donggyun Han David Lo SILM AAML MIACV 104 12 0 02 Oct 2023
Natural Language Models for Data Visualization Utilizing nvBench Dataset Shuo Wang Carlos Crespo-Quinones 29 1 0 02 Oct 2023