Unified Pre-training for Program Understanding and Generation

10 March 2021

Papers citing "Unified Pre-training for Program Understanding and Generation"

50 / 316 papers shown

Title
What are the Machine Learning best practices reported by practitioners on Stack Exchange? Anamaria Mojica-Hanke A. Bayona Mario Linares-Vásquez Steffen Herbold Fabio A. González HAI 21 6 0 25 Jan 2023
Recommending Root-Cause and Mitigation Steps for Cloud Incidents using Large Language Models Toufique Ahmed Supriyo Ghosh Chetan Bansal Thomas Zimmermann Xuchao Zhang Saravan Rajmohan AI4CE 46 52 0 10 Jan 2023
SantaCoder: don't reach for the stars! Loubna Ben Allal Raymond Li Denis Kocetkov Chenghao Mou Christopher Akiki ... Sean M. Hughes Daniel Fried Arjun Guha H. D. Vries Leandro von Werra 45 189 0 09 Jan 2023
Stealthy Backdoor Attack for Code Models Zhou Yang Bowen Xu Jie M. Zhang Hong Jin Kang Jieke Shi Junda He David Lo AAML 19 65 0 06 Jan 2023
ReCode: Robustness Evaluation of Code Generation Models Shiqi Wang Zheng Li Haifeng Qian Cheng Yang Zijian Wang ... Parminder Bhatia Ramesh Nallapati M. K. Ramanathan Dan Roth Bing Xiang 27 80 0 20 Dec 2022
A Survey on Pretrained Language Models for Neural Code Intelligence Yichen Xu Yanqiao Zhu 9 17 0 20 Dec 2022
Unveiling Code Pre-Trained Models: Investigating Syntax and Semantics Capacities Wei Ma Shangqing Liu Mengjie Zhao Xiaofei Xie Wenhan Wang Q. Hu Jiexin Zhang Yang Liu 27 16 0 20 Dec 2022
CoCoMIC: Code Completion By Jointly Modeling In-file and Cross-file Context Yangruibo Ding Zijian Wang Wasi Uddin Ahmad M. K. Ramanathan Ramesh Nallapati Parminder Bhatia Dan Roth Bing Xiang 24 68 0 20 Dec 2022
Python Code Generation by Asking Clarification Questions Haau-Sing Li Mohsen Mesgar André F. T. Martins Iryna Gurevych 29 11 0 19 Dec 2022
MultiCoder: Multi-Programming-Lingual Pre-Training for Low-Resource Code Completion Zi Gong Yinpeng Guo Pingyi Zhou Cuiyun Gao Yasheng Wang Zenglin Xu 14 8 0 19 Dec 2022
Large Language Models Meet NL2Code: A Survey Daoguang Zan B. Chen Fengji Zhang Di Lu Bingchao Wu Bei Guan Yongji Wang Jian-Guang Lou ELM ALM 31 170 0 19 Dec 2022
JEMMA: An Extensible Java Dataset for ML4Code Applications Anjan Karmakar Miltiadis Allamanis Romain Robbes VLM 29 3 0 18 Dec 2022
Plansformer: Generating Symbolic Plans using Transformers Vishal Pallagani Bharath Muppasani K. Murugesan F. Rossi L. Horesh Biplav Srivastava F. Fabiano Andrea Loreggia LM&Ro LLMAG OffRL 21 35 0 16 Dec 2022
An Empirical Study of Deep Learning Models for Vulnerability Detection Benjamin Steenhoek Md. Mahbubur Rahman Richard Jiles Wei Le ELM AAML 29 79 0 15 Dec 2022
Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability Detection Benjamin Steenhoek Hongyang Gao Wei Le 43 27 0 15 Dec 2022
ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages Yekun Chai Shuohuan Wang Chao Pang Yu Sun Hao Tian Hua Wu 30 35 0 13 Dec 2022
Who Evaluates the Evaluators? On Automatic Metrics for Assessing AI-based Offensive Code Generators Pietro Liguori Cristina Improta R. Natella B. Cukic Domenico Cotroneo ELM 36 16 0 12 Dec 2022
Parameter-Efficient Finetuning of Transformers for Source Code Shamil Ayupov Nadezhda Chirkova 22 17 0 12 Dec 2022
A Survey on Natural Language Processing for Programming Qingfu Zhu Xianzhen Luo Fang Liu Cuiyun Gao Wanxiang Che 25 2 0 12 Dec 2022
Codex Hacks HackerRank: Memorization Issues and a Framework for Code Synthesis Evaluation Anjan Karmakar Julian Aron Prenner Marco DÁmbros Romain Robbes ELM 24 17 0 06 Dec 2022
Detect-Localize-Repair: A Unified Framework for Learning to Debug with CodeT5 Nghi D. Q. Bui Yue Wang Steven C. H. Hoi 27 15 0 27 Nov 2022
Programming by Example and Text-to-Code Translation for Conversational Code Generation Eli Whitehouse William Gerard Yauhen Klimovich Marc Franco-Salvador 28 0 0 21 Nov 2022
The Stack: 3 TB of permissively licensed source code Denis Kocetkov Raymond Li Loubna Ben Allal Jia Li Chenghao Mou ... Sean M. Hughes Thomas Wolf Dzmitry Bahdanau Leandro von Werra H. D. Vries 58 308 0 20 Nov 2022
Evaluating How Fine-tuning on Bimodal Data Effects Code Generation Gabriel Orlanski Seonhye Yang Michael Healy ALM 21 5 0 15 Nov 2022
Using Developer Discussions to Guide Fixing Bugs in Software Sheena Panthaplackel Miloš Gligorić Junyi Jessy Li Raymond J. Mooney 27 5 0 11 Nov 2022
CodePAD: Sequence-based Code Generation with Pushdown Automaton Yihong Dong Xue Jiang Yuchen Liu Ge Li Zhi Jin 28 6 0 02 Nov 2022
When Language Model Meets Private Library Daoguang Zan Bei Chen Zeqi Lin Bei Guan Yongji Wang Jian-Guang Lou ALM 74 71 0 31 Oct 2022
CodeEditor: Learning to Edit Source Code with Pre-trained Models Jia Li Ge Li Zhuo Li Zhi Jin Xing Hu Kechi Zhang Zhiyi Fu KELM 16 23 0 31 Oct 2022
Aligning Offline Metrics and Human Judgments of Value for Code Generation Models Victor C. Dibia Adam Fourney Gagan Bansal Forough Poursabzi-Sangdeh Han Liu Saleema Amershi ALM OffRL 46 12 0 29 Oct 2022
Multi-lingual Evaluation of Code Generation Models Ben Athiwaratkun Sanjay Krishna Gouda Zijian Wang Xiaopeng Li Yuchen Tian ... Baishakhi Ray Parminder Bhatia Sudipta Sengupta Dan Roth Bing Xiang ELM 120 161 0 26 Oct 2022
Piloting Copilot and Codex: Hot Temperature, Cold Prompts, or Black Magic? Jean-Baptiste Döderlein M. Acher D. Khelladi B. Combemale 34 33 0 26 Oct 2022
Soft-Labeled Contrastive Pre-training for Function-level Code Representation Xiaonan Li Daya Guo Yeyun Gong Yun Lin Yelong Shen Xipeng Qiu Daxin Jiang Weizhu Chen Nan Duan 31 17 0 18 Oct 2022
CAT-probing: A Metric-based Approach to Interpret How Pre-trained Models for Programming Language Attend Code Structure Nuo Chen Qiushi Sun Renyu Zhu Xiang Li Xuesong Lu Ming Gao 44 10 0 07 Oct 2022
ContraCLM: Contrastive Learning For Causal Language Model Nihal Jain Dejiao Zhang Wasi Uddin Ahmad Zijian Wang Feng Nan ... Ramesh Nallapati Baishakhi Ray Parminder Bhatia Xiaofei Ma Bing Xiang 31 16 0 03 Oct 2022
Extreme Multi-Domain, Multi-Task Learning With Unified Text-to-Text Transfer Transformers Adebayo Oshingbesan Courage Ekoh Germann Atakpa Yonah Byaruagaba 10 0 0 21 Sep 2022
Exploring Code Style Transfer with Neural Networks Karl Munson Anish Savla Chih-Kai Ting Serenity Wade Kiran Kate Kavitha Srinivas CLIP 16 0 0 13 Sep 2022
Diverse Title Generation for Stack Overflow Posts with Multiple Sampling Enhanced Transformer Fengji Zhang Jin Liu Yao Wan Xiao Yu Xiao Liu J. Keung 96 11 0 24 Aug 2022
Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation Sijie Shen Xiangrong Zhu Yihong Dong Qi Guo Yankun Zhen Ge Li ViT 8 28 0 22 Aug 2022
CommitBART: A Large Pre-trained Model for GitHub Commits Shangqing Liu Yanzhou Li Xiaofei Xie Yang Liu VLM AI4TS 29 18 0 17 Aug 2022
Finding Reusable Machine Learning Components to Build Programming Language Processing Pipelines Patrick Flynn T. Vanderbruggen C. Liao Pei-Hung Lin M. Emani Xipeng Shen 24 4 0 11 Aug 2022
CoditT5: Pretraining for Source Code and Natural Language Editing Jiyang Zhang Sheena Panthaplackel Pengyu Nie Junyi Jessy Li Miloš Gligorić KELM 19 88 0 10 Aug 2022
No More Fine-Tuning? An Experimental Evaluation of Prompt Tuning in Code Intelligence Chaozheng Wang Yuanhang Yang Cuiyun Gao Yun Peng Hongyu Zhang Michael R. Lyu AAML 67 134 0 24 Jul 2022
PanGu-Coder: Program Synthesis with Function-Level Language Modeling Fenia Christopoulou Gerasimos Lampouras Milan Gritta Guchun Zhang Yinpeng Guo ... Guangtai Liang Jia Wei Xin Jiang Qianxiang Wang Qun Liu ELM SyDa ALM 45 74 0 22 Jul 2022
Probing Semantic Grounding in Language Models of Code with Representational Similarity Analysis Shounak Naik Rajaswa Patil Swati Agarwal V. Baths 25 3 0 15 Jul 2022
Few-shot training LLMs for project-specific code-summarization Toufique Ahmed Prem Devanbu 182 213 0 09 Jul 2022
AST-Probe: Recovering abstract syntax trees from hidden representations of pre-trained language models José Antonio Hernández López Martin Weyssow Jesús Sánchez Cuadrado H. Sahraoui 27 22 0 23 Jun 2022
XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence Ming Zhu Aneesh Jain Karthik Suresh Roshan Ravindran Sindhu Tipirneni Chandan K. Reddy 27 69 0 16 Jun 2022
FixEval: Execution-based Evaluation of Program Fixes for Programming Problems Md. Mahim Anjum Haque W. Ahmad Ismini Lourentzou Chris Brown 29 16 0 15 Jun 2022
NatGen: Generative pre-training by "Naturalizing" source code Saikat Chakraborty Toufique Ahmed Yangruibo Ding Prem Devanbu Baishakhi Ray AI4CE 57 116 0 15 Jun 2022
CERT: Continual Pre-Training on Sketches for Library-Oriented Code Generation Daoguang Zan Bei Chen Dejian Yang Zeqi Lin Minsu Kim Bei Guan Yongji Wang Weizhu Chen Jian-Guang Lou 25 120 0 14 Jun 2022