v1v2v3 (latest)

Measuring The Impact Of Programming Language Distribution

3 February 2023

Papers citing "Measuring The Impact Of Programming Language Distribution"

37 / 37 papers shown

Title
CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation Anirudh Khatry Robert Zhang Jia Pan Ziteng Wang Qiaochu Chen Greg Durrett Isil Dillig 70 0 0 21 Apr 2025
mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation Nishat Raihan Antonios Anastasopoulos Marcos Zampieri ELM 91 8 0 28 Jan 2025
UniMax: Fairer and more Effective Language Sampling for Large-Scale Multilingual Pretraining Hyung Won Chung Noah Constant Xavier Garcia Adam Roberts Yi Tay Sharan Narang Orhan Firat 104 54 0 18 Apr 2023
SantaCoder: don't reach for the stars! Loubna Ben Allal Raymond Li Denis Kocetkov Chenghao Mou Christopher Akiki ... Sean M. Hughes Daniel Fried Arjun Guha H. D. Vries Leandro von Werra 154 195 0 09 Jan 2023
ReCode: Robustness Evaluation of Code Generation Models Shiqi Wang Zheng Li Haifeng Qian Cheng Yang Zijian Wang ... Parminder Bhatia Ramesh Nallapati M. K. Ramanathan Dan Roth Bing Xiang 55 88 0 20 Dec 2022
The Stack: 3 TB of permissively licensed source code Denis Kocetkov Raymond Li Loubna Ben Allal Jia Li Chenghao Mou ... Sean M. Hughes Thomas Wolf Dzmitry Bahdanau Leandro von Werra H. D. Vries 92 328 0 20 Nov 2022
DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation Yuhang Lai Chengxi Li Yiming Wang Tianyi Zhang Ruiqi Zhong Luke Zettlemoyer Scott Yih Daniel Fried Si-yi Wang Tao Yu ELM ALM 89 334 0 18 Nov 2022
Evaluating How Fine-tuning on Bimodal Data Effects Code Generation Gabriel Orlanski Seonhye Yang Michael Healy ALM 47 5 0 15 Nov 2022
Multi-lingual Evaluation of Code Generation Models Ben Athiwaratkun Sanjay Krishna Gouda Zijian Wang Xiaopeng Li Yuchen Tian ... Baishakhi Ray Parminder Bhatia Sudipta Sengupta Dan Roth Bing Xiang ELM 148 172 0 26 Oct 2022
PanGu-Coder: Program Synthesis with Function-Level Language Modeling Fenia Christopoulou Gerasimos Lampouras Milan Gritta Guchun Zhang Yinpeng Guo ... Guangtai Liang Jia Wei Xin Jiang Qianxiang Wang Qun Liu ELM SyDa ALM 77 76 0 22 Jul 2022
NatGen: Generative pre-training by "Naturalizing" source code Saikat Chakraborty Toufique Ahmed Yangruibo Ding Prem Devanbu Baishakhi Ray AI4CE 83 115 0 15 Jun 2022
InCoder: A Generative Model for Code Infilling and Synthesis Daniel Fried Armen Aghajanyan Jessy Lin Sida I. Wang Eric Wallace Freda Shi Ruiqi Zhong Wen-tau Yih Luke Zettlemoyer M. Lewis SyDa 69 647 0 12 Apr 2022
PaLM: Scaling Language Modeling with Pathways Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma Gaurav Mishra ... Kathy Meier-Hellstern Douglas Eck J. Dean Slav Petrov Noah Fiedel PILM LRM 495 6,240 0 05 Apr 2022
$Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$$ Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ Adam Roberts Hyung Won Chung Anselm Levskaya Gaurav Mishra James Bradbury ... Brennan Saeta Ryan Sepassi A. Spiridonov Joshua Newlan Andrea Gesmundo ALM 101 196 0 31 Mar 2022
MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages Zhiruo Wang Grace Cuenca Shuyan Zhou Frank F. Xu Graham Neubig 56 51 0 16 Mar 2022
Competition-Level Code Generation with AlphaCode Yujia Li David Choi Junyoung Chung Nate Kushman Julian Schrittwieser ... Esme Sutherland Robson Pushmeet Kohli Nando de Koray Kavukcuoglu Oriol Vinyals 141 1,403 0 08 Feb 2022
CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation Yue Wang Weishi Wang Shafiq Joty Guosheng Lin 289 1,580 0 02 Sep 2021
Program Synthesis with Large Language Models Jacob Austin Augustus Odena Maxwell Nye Maarten Bosma Henryk Michalewski ... Ellen Jiang Carrie J. Cai Michael Terry Quoc V. Le Charles Sutton ELM AIMat ReCod ALM 195 1,986 0 16 Aug 2021
Evaluating Large Language Models Trained on Code Mark Chen Jerry Tworek Heewoo Jun Qiming Yuan Henrique Pondé ... Bob McGrew Dario Amodei Sam McCandlish Ilya Sutskever Wojciech Zaremba ELM ALM 231 5,539 0 07 Jul 2021
Break-It-Fix-It: Unsupervised Learning for Program Repair Michihiro Yasunaga Percy Liang 71 109 0 11 Jun 2021
Programming Puzzles Tal Schuster Ashwin Kalyan Oleksandr Polozov Adam Tauman Kalai ELM 60 34 0 10 Jun 2021
Reading StackOverflow Encourages Cheating: Adding Question Text Improves Extractive Code Generation Gabriel Orlanski Alex Gittens 54 20 0 08 Jun 2021
Measuring Coding Challenge Competence With APPS Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora ... Collin Burns Samir Puranik Horace He Basel Alomair Jacob Steinhardt ELM AIMat ALM 251 681 0 20 May 2021
Unified Pre-training for Program Understanding and Generation Wasi Uddin Ahmad Saikat Chakraborty Baishakhi Ray Kai-Wei Chang 132 766 0 10 Mar 2021
DOBF: A Deobfuscation Pre-Training Objective for Programming Languages Baptiste Roziere Marie-Anne Lachaux Marc Szafraniec Guillaume Lample AI4CE 80 139 0 15 Feb 2021
PyMT5: multi-mode translation of natural language and Python code with transformers Colin B. Clement Dawn Drain Jonathan Timcheck Alexey Svyatkovskiy Neel Sundaresan 62 154 0 07 Oct 2020
Unsupervised Translation of Programming Languages Marie-Anne Lachaux Baptiste Roziere L. Chanussot Guillaume Lample 103 418 0 05 Jun 2020
Balancing Training for Multilingual Neural Machine Translation Xinyi Wang Yulia Tsvetkov Graham Neubig 98 100 0 14 Apr 2020
CodeBERT: A Pre-Trained Model for Programming and Natural Languages Zhangyin Feng Daya Guo Duyu Tang Nan Duan Xiaocheng Feng ... Linjun Shou Bing Qin Ting Liu Daxin Jiang Ming Zhou 162 2,637 0 19 Feb 2020
Unsupervised Cross-lingual Representation Learning at Scale Alexis Conneau Kartikay Khandelwal Naman Goyal Vishrav Chaudhary Guillaume Wenzek Francisco Guzmán Edouard Grave Myle Ott Luke Zettlemoyer Veselin Stoyanov 223 6,565 0 05 Nov 2019
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 442 20,181 0 23 Oct 2019
CodeSearchNet Challenge: Evaluating the State of Semantic Code Search Hamel Husain Hongqiu Wu Tiferet Gazit Miltiadis Allamanis Marc Brockschmidt ELM 130 1,079 0 20 Sep 2019
Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges N. Arivazhagan Ankur Bapna Orhan Firat Dmitry Lepikhin Melvin Johnson ... George F. Foster Colin Cherry Wolfgang Macherey Zhiwen Chen Yonghui Wu 85 428 0 11 Jul 2019
The Adverse Effects of Code Duplication in Machine Learning Models of Code Miltiadis Allamanis 61 320 0 16 Dec 2018
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing Taku Kudo John Richardson 196 3,520 0 19 Aug 2018
Learning to Mine Aligned Code and Natural Language Pairs from Stack Overflow Pengcheng Yin Bowen Deng Edgar Chen Bogdan Vasilescu Graham Neubig 63 304 0 23 May 2018
Adafactor: Adaptive Learning Rates with Sublinear Memory Cost Noam M. Shazeer Mitchell Stern ODL 76 1,048 0 11 Apr 2018