CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation

2 September 2021

ArXiv (abs)PDF HTML Github (2999★)

Papers citing "CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation"

50 / 638 papers shown

Title
The Stack: 3 TB of permissively licensed source code Denis Kocetkov Raymond Li Loubna Ben Allal Jia Li Chenghao Mou ... Sean M. Hughes Thomas Wolf Dzmitry Bahdanau Leandro von Werra H. D. Vries 104 339 0 20 Nov 2022
Evaluating How Fine-tuning on Bimodal Data Effects Code Generation Gabriel Orlanski Seonhye Yang Michael Healy ALM 47 5 0 15 Nov 2022
Calibrated Interpretation: Confidence Estimation in Semantic Parsing Elias Stengel-Eskin Benjamin Van Durme UQLM 160 25 0 14 Nov 2022
CodePAD: Sequence-based Code Generation with Pushdown Automaton Yihong Dong Xue Jiang Yuchen Liu Ge Li Zhi Jin 102 8 0 02 Nov 2022
A Simple, Yet Effective Approach to Finding Biases in Code Generation Spyridon Mouselinos Mateusz Malinowski Henryk Michalewski 108 9 0 31 Oct 2022
When Language Model Meets Private Library Daoguang Zan Bei Chen Zeqi Lin Bei Guan Yongji Wang Jian-Guang Lou ALM 128 74 0 31 Oct 2022
CodeEditor: Learning to Edit Source Code with Pre-trained Models Jia Li Ge Li Zhuo Li Zhi Jin Xing Hu Kechi Zhang Zhiyi Fu KELM 59 28 0 31 Oct 2022
Aligning Offline Metrics and Human Judgments of Value for Code Generation Models Victor C. Dibia Adam Fourney Gagan Bansal Forough Poursabzi-Sangdeh Han Liu Saleema Amershi ALM OffRL 103 13 0 29 Oct 2022
Multi-lingual Evaluation of Code Generation Models Ben Athiwaratkun Sanjay Krishna Gouda Zijian Wang Xiaopeng Li Yuchen Tian ... Baishakhi Ray Parminder Bhatia Sudipta Sengupta Dan Roth Bing Xiang ELM 191 177 0 26 Oct 2022
Contrastive Search Is What You Need For Neural Text Generation Yixuan Su Nigel Collier 91 53 0 25 Oct 2022
Soft-Labeled Contrastive Pre-training for Function-level Code Representation Xiaonan Li Daya Guo Yeyun Gong Yun Lin Yelong Shen Xipeng Qiu Daxin Jiang Weizhu Chen Nan Duan 52 18 0 18 Oct 2022
PACIFIC: Towards Proactive Conversational Question Answering over Tabular and Textual Data in Finance Yang Deng Wenqiang Lei Wenxuan Zhang W. Lam Tat-Seng Chua 94 56 0 17 Oct 2022
Investigating the Robustness of Natural Language Generation from Logical Forms via Counterfactual Samples Chengyuan Liu Leilei Gan Kun Kuang Leilei Gan 66 3 0 16 Oct 2022
Language Models of Code are Few-Shot Commonsense Learners Aman Madaan Shuyan Zhou Uri Alon Yiming Yang Graham Neubig ReLM LRM 139 222 0 13 Oct 2022
Pre-Training Representations of Binary Code Using Contrastive Learning Yifan Zhang Chen Huang Yueke Zhang Kevin Cao Scott Thomas Andersen Huajie Shao Kevin Leach Yu Huang 86 2 0 11 Oct 2022
SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in Fine-tuned Source Code Models Hossein Hajipour Ning Yu Cristian-Alexandru Staicu Mario Fritz OODD 122 5 0 10 Oct 2022
LLMEffiChecker: Understanding and Testing Efficiency Degradation of Large Language Models Simin Chen Cong Liu Mirazul Haque Wei Yang 86 24 0 07 Oct 2022
CAT-probing: A Metric-based Approach to Interpret How Pre-trained Models for Programming Language Attend Code Structure Nuo Chen Qiushi Sun Renyu Zhu Xiang Li Xuesong Lu Ming Gao 61 10 0 07 Oct 2022
ContraCLM: Contrastive Learning For Causal Language Model Nihal Jain Dejiao Zhang Wasi Uddin Ahmad Zijian Wang Feng Nan ... Ramesh Nallapati Baishakhi Ray Parminder Bhatia Xiaofei Ma Bing Xiang 81 17 0 03 Oct 2022
Extreme Multi-Domain, Multi-Task Learning With Unified Text-to-Text Transfer Transformers Adebayo Oshingbesan Courage Ekoh Germann Atakpa Yonah Byaruagaba 19 0 0 21 Sep 2022
The Whole Truth and Nothing But the Truth: Faithful and Controllable Dialogue Response Generation with Dataflow Transduction and Constrained Decoding Hao Fang Anusha Balakrishnan Harsh Jhamtani Jonathan Bufe J. Crawford Jayant Krishnamurthy Adam Pauls J. Eisner Jacob Andreas Dan Klein 90 6 0 16 Sep 2022
Exploring Code Style Transfer with Neural Networks Karl Munson Anish Savla Chih-Kai Ting Serenity Wade Kiran Kate Kavitha Srinivas CLIP 60 0 0 13 Sep 2022
Don't Complete It! Preventing Unhelpful Code Completion for Productive and Sustainable Neural Code Completion Systems Zhensu Sun Xiaoning Du Fu Song Shangwen Wang Mingze Ni Li Li 111 9 0 13 Sep 2022
Towards Top-Down Automated Development in Limited Scopes: A Neuro-Symbolic Framework from Expressibles to Executables Jian Gu H. Gall 65 0 0 04 Sep 2022
Diverse Title Generation for Stack Overflow Posts with Multiple Sampling Enhanced Transformer Fengji Zhang Jin Liu Yao Wan Xiao Yu Xiao Liu J. Keung 129 11 0 24 Aug 2022
Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation Sijie Shen Xiangrong Zhu Yihong Dong Qi Guo Yankun Zhen Ge Li ViT 79 30 0 22 Aug 2022
Antecedent Predictions Are More Important Than You Think: An Effective Method for Tree-Based Code Generation Yihong Dong Ge Li Xue Jiang Zhi Jin 65 1 0 22 Aug 2022
CommitBART: A Large Pre-trained Model for GitHub Commits Shangqing Liu Yanzhou Li Xiaofei Xie Yang Liu VLM AI4TS 92 20 0 17 Aug 2022
Finding Reusable Machine Learning Components to Build Programming Language Processing Pipelines Patrick Flynn T. Vanderbruggen C. Liao Pei-Hung Lin M. Emani Xipeng Shen 80 4 0 11 Aug 2022
CoditT5: Pretraining for Source Code and Natural Language Editing Jiyang Zhang Sheena Panthaplackel Pengyu Nie Junyi Jessy Li Miloš Gligorić KELM 93 92 0 10 Aug 2022
Multi-View Pre-Trained Model for Code Vulnerability Identification Xuxia Jiang Yinhao Xiao Jun Wang Wei Zhang 48 1 0 10 Aug 2022
CSSAM:Code Search via Attention Matching of Code Semantics and Structures Yitao Hu Bowen Cai Yaoxiang Yu 48 4 0 08 Aug 2022
No More Fine-Tuning? An Experimental Evaluation of Prompt Tuning in Code Intelligence Chaozheng Wang Yuanhang Yang Cuiyun Gao Yun Peng Hongyu Zhang Michael R. Lyu AAML 115 144 0 24 Jul 2022
PanGu-Coder: Program Synthesis with Function-Level Language Modeling Fenia Christopoulou Gerasimos Lampouras Milan Gritta Guchun Zhang Yinpeng Guo ... Guangtai Liang Jia Wei Xin Jiang Qianxiang Wang Qun Liu ELM SyDa ALM 109 76 0 22 Jul 2022
Probing Semantic Grounding in Language Models of Code with Representational Similarity Analysis Shounak Naik Rajaswa Patil Swati Agarwal V. Baths 27 4 0 15 Jul 2022
DocPrompting: Generating Code by Retrieving the Docs Shuyan Zhou Uri Alon Frank F. Xu Zhiruo Wang Zhengbao Jiang Graham Neubig LLMAG 100 141 0 13 Jul 2022
Few-shot training LLMs for project-specific code-summarization Toufique Ahmed Prem Devanbu 233 241 0 09 Jul 2022
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning Hung Le Yue Wang Akhilesh Deepak Gotmare Silvio Savarese Guosheng Lin SyDa ALM 227 273 0 05 Jul 2022
Repository-Level Prompt Generation for Large Language Models of Code Disha Shrivastava Hugo Larochelle Daniel Tarlow 103 143 0 26 Jun 2022
AST-Probe: Recovering abstract syntax trees from hidden representations of pre-trained language models José Antonio Hernández López Martin Weyssow Jesús Sánchez Cuadrado H. Sahraoui 55 23 0 23 Jun 2022
BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and Semantic Parsing Subhro Roy Sam Thomson Tongfei Chen Richard Shin Adam Pauls Jason Eisner Benjamin Van Durme ALM 104 13 0 21 Jun 2022
XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence Ming Zhu Aneesh Jain Karthik Suresh Roshan Ravindran Sindhu Tipirneni Chandan K. Reddy 106 73 0 16 Jun 2022
FixEval: Execution-based Evaluation of Program Fixes for Programming Problems Md. Mahim Anjum Haque W. Ahmad Ismini Lourentzou Chris Brown 152 19 0 15 Jun 2022
NatGen: Generative pre-training by "Naturalizing" source code Saikat Chakraborty Toufique Ahmed Yangruibo Ding Prem Devanbu Baishakhi Ray AI4CE 114 117 0 15 Jun 2022
An Extractive-and-Abstractive Framework for Source Code Summarization Weisong Sun Chunrong Fang Yuchen Chen Quanjun Zhang Guanhong Tao Tingxu Han Yifei Ge Yudu You Bin Luo 88 33 0 15 Jun 2022
CERT: Continual Pre-Training on Sketches for Library-Oriented Code Generation Daoguang Zan Bei Chen Dejian Yang Zeqi Lin Minsu Kim Bei Guan Yongji Wang Weizhu Chen Jian-Guang Lou 83 129 0 14 Jun 2022
StructCoder: Structure-Aware Transformer for Code Generation Sindhu Tipirneni Ming Zhu Chandan K. Reddy 98 60 0 10 Jun 2022
Assessing Project-Level Fine-Tuning of ML4SE Models Egor Bogomolov Sergey Zhuravlev Egor Spirin T. Bryksin 44 7 0 07 Jun 2022
Fault-Aware Neural Code Rankers J. Inala Chenglong Wang Mei Yang Andrés Codas Mark Encarnación Shuvendu K. Lahiri Madan Musuvathi Jianfeng Gao ALM 100 45 0 04 Jun 2022
Learning code summarization from a small and local dataset Toufique Ahmed Prem Devanbu 79 10 0 02 Jun 2022