InCoder: A Generative Model for Code Infilling and Synthesis

12 April 2022

Daniel Fried

Ruiqi Zhong

Luke Zettlemoyer

Papers citing "InCoder: A Generative Model for Code Infilling and Synthesis"

50 / 100 papers shown

Title
Natural Language Generation and Understanding of Big Code for AI-Assisted Programming: A Review M. Wong Shangxin Guo Ching Nam Hang Siu-Wai Ho C. Tan 42 78 0 04 Jul 2023
Is Self-Repair a Silver Bullet for Code Generation? Theo X. Olausson J. Inala Chenglong Wang Jianfeng Gao Armando Solar-Lezama LRM 37 108 0 16 Jun 2023
SelfEvolve: A Code Evolution Framework via Large Language Models Shuyang Jiang Yuhao Wang Yu Wang 24 32 0 05 Jun 2023
How Effective Are Neural Networks for Fixing Security Vulnerabilities Yi Wu Nan Jiang H. Pham Thibaud Lutellier Jordan Davis Lin Tan Petr Babkin Sameena Shah AAML 21 79 0 29 May 2023
Coarse-Tuning Models of Code with Reinforcement Learning Feedback Abhinav C. P. Jain Chima Adiole Swarat Chaudhuri Thomas W. Reps Chris Jermaine Rice University ALM 30 2 0 25 May 2023
Uncovering and Quantifying Social Biases in Code Generation Yong-Jin Liu Xiaokang Chen Yan Gao Zhe Su Fengji Zhang Daoguang Zan Jian-Guang Lou Pin-Yu Chen Tsung-Yi Ho 36 19 0 24 May 2023
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers Kexun Zhang Danqing Wang Jingtao Xia William Yang Wang Lei Li 33 40 0 24 May 2023
Neural Machine Translation for Code Generation K. Dharma Clayton T. Morrison 32 4 0 22 May 2023
AI-assisted Code Authoring at Scale: Fine-tuning, deploying, and mixed methods evaluation V. Murali C. Maddila Imad Ahmad Michael Bolin Daniel Cheng Negar Ghorbani Renuka Fernandez Nachiappan Nagappan Peter C. Rigby 18 14 0 20 May 2023
Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation Xinyu Li Jiang-Tian Xue Zheng Xie Ming Li LRM 24 26 0 18 May 2023
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages Erik Nijkamp A. Ghobadzadeh Caiming Xiong Silvio Savarese Yingbo Zhou 152 164 0 03 May 2023
Emergent and Predictable Memorization in Large Language Models Stella Biderman USVSN Sai Prashanth Lintang Sutawika Hailey Schoelkopf Quentin G. Anthony Shivanshu Purohit Edward Raf 35 117 0 21 Apr 2023
CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X Qinkai Zheng Xiao Xia Xu Zou Yuxiao Dong Shanshan Wang ... Andi Wang Yang Li Teng Su Zhilin Yang Jie Tang ELM ALM SyDa 71 317 0 30 Mar 2023
Greener yet Powerful: Taming Large Code Generation Models with Quantization Xiaokai Wei Sujan Kumar Gonugondla W. Ahmad Shiqi Wang Baishakhi Ray ... Ben Athiwaratkun Mingyue Shang M. K. Ramanathan Parminder Bhatia Bing Xiang MQ 30 6 0 09 Mar 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 61 12,368 0 27 Feb 2023
CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code Shuyan Zhou Uri Alon Sumit Agarwal Graham Neubig ELM ALM 40 99 0 10 Feb 2023
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models Hossein Hajipour Keno Hassler Thorsten Holz Lea Schonherr Mario Fritz ELM 40 20 0 08 Feb 2023
Measuring The Impact Of Programming Language Distribution Gabriel Orlanski Kefan Xiao Xavier Garcia Jeffrey Hui Joshua Howland J. Malmaud Jacob Austin Rishah Singh Michele Catasta 30 28 0 03 Feb 2023
KNOD: Domain Knowledge Distilled Tree Decoder for Automated Program Repair Nan Jiang Thibaud Lutellier Yiling Lou Lin Tan Dan Goldwasser Xinming Zhang 27 43 0 03 Feb 2023
On the Design of AI-powered Code Assistants for Notebooks A. Mcnutt Chenglong Wang R. Deline Steven Drucker 26 79 0 26 Jan 2023
TrojanPuzzle: Covertly Poisoning Code-Suggestion Models H. Aghakhani Wei Dai Andre Manoel Xavier Fernandes Anant Kharkar Christopher Kruegel Giovanni Vigna David Evans B. Zorn Robert Sim SILM 29 33 0 06 Jan 2023
Natural Language to Code Generation in Interactive Data Science Notebooks Pengcheng Yin Wen-Ding Li Kefan Xiao Abhishek Rao Yeming Wen ... Paige Bailey Michele Catasta Henryk Michalewski Oleksandr Polozov Charles Sutton 33 59 0 19 Dec 2022
ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages Yekun Chai Shuohuan Wang Chao Pang Yu Sun Hao Tian Hua Wu 38 35 0 13 Dec 2022
A Survey on Natural Language Processing for Programming Qingfu Zhu Xianzhen Luo Fang Liu Cuiyun Gao Wanxiang Che 25 2 0 12 Dec 2022
Coder Reviewer Reranking for Code Generation Tianyi Zhang Tao Yu Tatsunori B. Hashimoto M. Lewis Wen-tau Yih Daniel Fried Sida I. Wang 44 93 0 29 Nov 2022
Retrieval-Augmented Multimodal Language Modeling Michihiro Yasunaga Armen Aghajanyan Weijia Shi Rich James J. Leskovec Percy Liang M. Lewis Luke Zettlemoyer Wen-tau Yih RALM 22 95 0 22 Nov 2022
UniMASK: Unified Inference in Sequential Decision Problems Micah Carroll Orr Paradise Jessy Lin Raluca Georgescu Mingfei Sun ... Stephanie Milani Katja Hofmann Matthew J. Hausknecht Anca Dragan Sam Devlin OffRL 26 21 0 20 Nov 2022
Evaluating How Fine-tuning on Bimodal Data Effects Code Generation Gabriel Orlanski Seonhye Yang Michael Healy ALM 21 5 0 15 Nov 2022
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model BigScience Workshop : Teven Le Scao Angela Fan Christopher Akiki ... Zhongli Xie Zifan Ye M. Bras Younes Belkada Thomas Wolf VLM 118 2,315 0 09 Nov 2022
Do Users Write More Insecure Code with AI Assistants? Neil Perry Megha Srivastava Deepak Kumar Dan Boneh ELM AAML 17 166 0 07 Nov 2022
CodePAD: Sequence-based Code Generation with Pushdown Automaton Yihong Dong Xue Jiang Yuchen Liu Ge Li Zhi Jin 28 6 0 02 Nov 2022
A Simple, Yet Effective Approach to Finding Biases in Code Generation Spyridon Mouselinos Mateusz Malinowski Henryk Michalewski 18 7 0 31 Oct 2022
Multi-lingual Evaluation of Code Generation Models Ben Athiwaratkun Sanjay Krishna Gouda Zijian Wang Xiaopeng Li Yuchen Tian ... Baishakhi Ray Parminder Bhatia Sudipta Sengupta Dan Roth Bing Xiang ELM 120 161 0 26 Oct 2022
Language Models of Code are Few-Shot Commonsense Learners Aman Madaan Shuyan Zhou Uri Alon Yiming Yang Graham Neubig ReLM LRM 35 207 0 13 Oct 2022
MultiPL-E: A Scalable and Extensible Approach to Benchmarking Neural Code Generation Federico Cassano John Gouwar Daniel Nguyen S. Nguyen Luna Phipps-Costin ... Carolyn Jane Anderson Molly Q. Feldman Arjun Guha Michael Greenberg Abhinav Jangda ELM 30 83 0 17 Aug 2022
Interactive Code Generation via Test-Driven User-Intent Formalization Shuvendu K. Lahiri Sarah Fakhoury Aaditya Naik Georgios Sakkas Saikat Chakraborty ... Piali Choudhury Curtis von Veh J. Inala Chenglong Wang Jianfeng Gao 24 63 0 11 Aug 2022
PanGu-Coder: Program Synthesis with Function-Level Language Modeling Fenia Christopoulou Gerasimos Lampouras Milan Gritta Guchun Zhang Yinpeng Guo ... Guangtai Liang Jia Wei Xin Jiang Qianxiang Wang Qun Liu ELM SyDa ALM 45 74 0 22 Jul 2022
CodeT: Code Generation with Generated Tests Bei Chen Fengji Zhang A. Nguyen Daoguang Zan Zeqi Lin Jian-Guang Lou Weizhu Chen 43 319 0 21 Jul 2022
Few-shot training LLMs for project-specific code-summarization Toufique Ahmed Prem Devanbu 182 213 0 09 Jul 2022
StructCoder: Structure-Aware Transformer for Code Generation Sindhu Tipirneni Ming Zhu Chandan K. Reddy 41 55 0 10 Jun 2022
Fault-Aware Neural Code Rankers J. Inala Chenglong Wang Mei Yang Andrés Codas Mark Encarnación Shuvendu K. Lahiri Madan Musuvathi Jianfeng Gao ALM 24 42 0 04 Jun 2022
CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis Erik Nijkamp Bo Pang Hiroaki Hayashi Lifu Tu Haiquan Wang Yingbo Zhou Silvio Savarese Caiming Xiong ELM 90 975 0 25 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 369 12,081 0 04 Mar 2022
A Systematic Evaluation of Large Language Models of Code Frank F. Xu Uri Alon Graham Neubig Vincent J. Hellendoorn ELM ALM 204 633 0 26 Feb 2022
CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation Yue Wang Weishi Wang Chenyu You Guosheng Lin 246 1,506 0 02 Sep 2021
AVATAR: A Parallel Corpus for Java-Python Program Translation W. Ahmad Md Golam Rahman Tushar Saikat Chakraborty Kai-Wei Chang 38 79 0 26 Aug 2021
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 242 595 0 14 Jul 2021
CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation Shuai Lu Daya Guo Shuo Ren Junjie Huang Alexey Svyatkovskiy ... Nan Duan Neel Sundaresan Shao Kun Deng Shengyu Fu Shujie Liu ELM 204 853 0 09 Feb 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 282 2,000 0 31 Dec 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 264 4,505 0 23 Jan 2020