v1v2 (latest)

A Survey on Natural Language Processing for Programming

12 December 2022

Cuiyun Gao

Papers citing "A Survey on Natural Language Processing for Programming"

50 / 69 papers shown

Title
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence Daya Guo Qihao Zhu Dejian Yang Zhenda Xie Kai Dong ... Yu-Huan Wu Yiming Li Fuli Luo Yingfei Xiong W. Liang ELM 123 798 0 25 Jan 2024
Code Llama: Open Foundation Models for Code Baptiste Rozière Jonas Gehring Fabian Gloeckle Sten Sootla Itai Gat ... Hugo Touvron Louis Martin Nicolas Usunier Thomas Scialom Gabriel Synnaeve ELM ALM 140 2,085 0 24 Aug 2023
WizardCoder: Empowering Code Large Language Models with Evol-Instruct Ziyang Luo Can Xu Pu Zhao Qingfeng Sun Xiubo Geng Wenxiang Hu Chongyang Tao Jing Ma Qingwei Lin Daxin Jiang ELM SyDa ALM 125 690 0 14 Jun 2023
CodeT5+: Open Code Large Language Models for Code Understanding and Generation Yue Wang Hung Le Akhilesh Deepak Gotmare Nghi D. Q. Bui Junnan Li Steven C. H. Hoi ALM 85 491 0 13 May 2023
StarCoder: may the source be with you! Raymond Li Loubna Ben Allal Yangtian Zi Niklas Muennighoff Denis Kocetkov ... Sean M. Hughes Thomas Wolf Arjun Guha Leandro von Werra H. D. Vries 110 781 0 09 May 2023
Self-Edit: Fault-Aware Code Editor for Code Generation Kechi Zhang Zhuo Li Jia Li Ge Li Zhi Jin 114 106 0 06 May 2023
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages Erik Nijkamp A. Ghobadzadeh Caiming Xiong Silvio Savarese Yingbo Zhou 216 169 0 03 May 2023
CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X Qinkai Zheng Xiao Xia Xu Zou Yuxiao Dong Shanshan Wang ... Andi Wang Yang Li Teng Su Zhilin Yang Jie Tang ELM ALM SyDa 135 341 0 30 Mar 2023
ViperGPT: Visual Inference via Python Execution for Reasoning Dídac Surís Sachit Menon Carl Vondrick MLLM LRM ReLM 113 466 0 14 Mar 2023
Self-Instruct: Aligning Language Models with Self-Generated Instructions Yizhong Wang Yeganeh Kordi Swaroop Mishra Alisa Liu Noah A. Smith Daniel Khashabi Hannaneh Hajishirzi ALM SyDa LRM 153 2,253 0 20 Dec 2022
Large Language Models Meet NL2Code: A Survey Daoguang Zan B. Chen Fengji Zhang Di Lu Bingchao Wu Bei Guan Yongji Wang Jian-Guang Lou ELM ALM 74 180 0 19 Dec 2022
DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation Yuhang Lai Chengxi Li Yiming Wang Tianyi Zhang Ruiqi Zhong Luke Zettlemoyer Scott Yih Daniel Fried Si-yi Wang Tao Yu ELM ALM 91 339 0 18 Nov 2022
Code4Struct: Code Generation for Few-Shot Event Structure Prediction Xingyao Wang Sha Li Heng Ji 83 83 0 23 Oct 2022
Language Models of Code are Few-Shot Commonsense Learners Aman Madaan Shuyan Zhou Uri Alon Yiming Yang Graham Neubig ReLM LRM 123 222 0 13 Oct 2022
PanGu-Coder: Program Synthesis with Function-Level Language Modeling Fenia Christopoulou Gerasimos Lampouras Milan Gritta Guchun Zhang Yinpeng Guo ... Guangtai Liang Jia Wei Xin Jiang Qianxiang Wang Qun Liu ELM SyDa ALM 98 76 0 22 Jul 2022
CodeT: Code Generation with Generated Tests Bei Chen Fengji Zhang A. Nguyen Daoguang Zan Zeqi Lin Jian-Guang Lou Weizhu Chen 103 344 0 21 Jul 2022
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning Hung Le Yue Wang Akhilesh Deepak Gotmare Silvio Savarese Guosheng Lin SyDa ALM 217 265 0 05 Jul 2022
Language Models are General-Purpose Interfaces Y. Hao Haoyu Song Li Dong Shaohan Huang Zewen Chi Wenhui Wang Shuming Ma Furu Wei MLLM 71 99 0 13 Jun 2022
Deep Learning Meets Software Engineering: A Survey on Pre-Trained Models of Source Code Changan Niu Chuanyi Li Bin Luo Vincent Ng SyDa VLM 100 50 0 24 May 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 418 3,607 0 29 Apr 2022
InCoder: A Generative Model for Code Infilling and Synthesis Daniel Fried Armen Aghajanyan Jessy Lin Sida I. Wang Eric Wallace Freda Shi Ruiqi Zhong Wen-tau Yih Luke Zettlemoyer M. Lewis SyDa 79 652 0 12 Apr 2022
UniXcoder: Unified Cross-Modal Pre-training for Code Representation Daya Guo Shuai Lu Nan Duan Yanlin Wang Ming Zhou Jian Yin 96 592 0 08 Mar 2022
Competition-Level Code Generation with AlphaCode Yujia Li David Choi Junyoung Chung Nate Kushman Julian Schrittwieser ... Esme Sutherland Robson Pushmeet Kohli Nando de Koray Kavukcuoglu Oriol Vinyals 148 1,425 0 08 Feb 2022
CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation Yue Wang Weishi Wang Shafiq Joty Guosheng Lin 296 1,592 0 02 Sep 2021
Impact of Evaluation Methodologies on Code Summarization Pengyu Nie Jiyang Zhang Junyi Jessy Li Raymond J. Mooney Miloš Gligorić 58 20 0 22 Aug 2021
Program Synthesis with Large Language Models Jacob Austin Augustus Odena Maxwell Nye Maarten Bosma Henryk Michalewski ... Ellen Jiang Carrie J. Cai Michael Terry Quoc V. Le Charles Sutton ELM AIMat ReCod ALM 216 2,009 0 16 Aug 2021
Evaluating Large Language Models Trained on Code Mark Chen Jerry Tworek Heewoo Jun Qiming Yuan Henrique Pondé ... Bob McGrew Dario Amodei Sam McCandlish Ilya Sutskever Wojciech Zaremba ELM ALM 236 5,665 0 07 Jul 2021
Hi-Transformer: Hierarchical Interactive Transformer for Efficient and Effective Long Document Modeling Chuhan Wu Fangzhao Wu Tao Qi Yongfeng Huang 109 68 0 02 Jun 2021
CodeNet: A Large-Scale AI for Code Dataset for Learning a Diversity of Coding Tasks Ruchi Puri David S. Kung G. Janssen Wei Zhang Giacomo Domeniconi ... Saurabh Pujar Shyam Ramji Ulrich Finkler Susan Malaika Frederick Reiss 89 244 0 25 May 2021
Measuring Coding Challenge Competence With APPS Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora ... Collin Burns Samir Puranik Horace He Basel Alomair Jacob Steinhardt ELM AIMat ALM 272 704 0 20 May 2021
Language-Agnostic Representation Learning of Source Code from Structure and Context Daniel Zügner Tobias Kirschstein Michele Catasta J. Leskovec Stephan Günnemann 60 121 0 21 Mar 2021
Unified Pre-training for Program Understanding and Generation Wasi Uddin Ahmad Saikat Chakraborty Baishakhi Ray Kai-Wei Chang 140 769 0 10 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 993 29,871 0 26 Feb 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 475 2,121 0 31 Dec 2020
mT5: A massively multilingual pre-trained text-to-text transformer Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel 148 2,560 0 22 Oct 2020
PyMT5: multi-mode translation of natural language and Python code with transformers Colin B. Clement Dawn Drain Jonathan Timcheck Alexey Svyatkovskiy Neel Sundaresan 65 154 0 07 Oct 2020
CodeBLEU: a Method for Automatic Evaluation of Code Synthesis Shuo Ren Daya Guo Shuai Lu Long Zhou Shujie Liu Duyu Tang Neel Sundaresan M. Zhou Ambrosio Blanco Shuai Ma ELM 118 542 0 22 Sep 2020
GraphCodeBERT: Pre-training Code Representations with Data Flow Daya Guo Shuo Ren Shuai Lu Zhangyin Feng Duyu Tang ... Dawn Drain Neel Sundaresan Jian Yin Daxin Jiang M. Zhou 167 1,146 0 17 Sep 2020
Synthesize, Execute and Debug: Learning to Repair for Neural Program Synthesis Kavi Gupta Peter Ebert Christensen Xinyun Chen Basel Alomair NAI 68 51 0 16 Jul 2020
Retrieval-Augmented Generation for Code Summarization via Hybrid GNN Shangqing Liu Yu Chen Xiaofei Xie J. Siow Yang Liu 69 166 0 09 Jun 2020
Unsupervised Translation of Programming Languages Marie-Anne Lachaux Baptiste Roziere L. Chanussot Guillaume Lample 111 421 0 05 Jun 2020
A Transformer-based Approach for Source Code Summarization Wasi Uddin Ahmad Saikat Chakraborty Baishakhi Ray Kai-Wei Chang ViT 99 388 0 01 May 2020
Learning to Update Natural Language Comments Based on Code Changes Sheena Panthaplackel Pengyu Nie Miloš Gligorić Junyi Jessy Li Raymond J. Mooney 88 66 0 25 Apr 2020
CodeBERT: A Pre-Trained Model for Programming and Natural Languages Zhangyin Feng Daya Guo Duyu Tang Nan Duan Xiaocheng Feng ... Linjun Shou Bing Qin Ting Liu Daxin Jiang Ming Zhou 176 2,672 0 19 Feb 2020
Multilingual Denoising Pre-training for Neural Machine Translation Yinhan Liu Jiatao Gu Naman Goyal Xian Li Sergey Edunov Marjan Ghazvininejad M. Lewis Luke Zettlemoyer AI4CE AIMat 128 1,811 0 22 Jan 2020
Unsupervised Cross-lingual Representation Learning at Scale Alexis Conneau Kartikay Khandelwal Naman Goyal Vishrav Chaudhary Guillaume Wenzek Francisco Guzmán Edouard Grave Myle Ott Luke Zettlemoyer Veselin Stoyanov 228 6,593 0 05 Nov 2019
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension M. Lewis Yinhan Liu Naman Goyal Marjan Ghazvininejad Abdel-rahman Mohamed Omer Levy Veselin Stoyanov Luke Zettlemoyer AIMat VLM 264 10,861 0 29 Oct 2019
Code Generation as a Dual Task of Code Summarization Bolin Wei Ge Li Xin Xia Zhiyi Fu Zhi Jin 78 226 0 14 Oct 2019
CodeSearchNet Challenge: Evaluating the State of Semantic Code Search Hamel Husain Hongqiu Wu Tiferet Gazit Miltiadis Allamanis Marc Brockschmidt ELM 130 1,086 0 20 Sep 2019
Devign: Effective Vulnerability Identification by Learning Comprehensive Program Semantics via Graph Neural Networks Yaqin Zhou Shangqing Liu J. Siow Xiaoning Du Yang Liu GNN 77 780 0 08 Sep 2019