CodeBERT: A Pre-Trained Model for Programming and Natural Languages

19 February 2020

Papers citing "CodeBERT: A Pre-Trained Model for Programming and Natural Languages"

50 / 314 papers shown

Title
AstBERT: Enabling Language Model for Financial Code Understanding with Abstract Syntax Trees Rong Liang Tiehu Zhang Y. Lu Yuze Liu Zhengqing Huang Xin Chen 16 3 0 20 Jan 2022
Cross-Language Binary-Source Code Matching with Intermediate Representations Yi Gui Yao Wan Hongyu Zhang Huifang Huang Yulei Sui Guandong Xu Zhiyuan Shao Hai Jin 27 31 0 19 Jan 2022
Unveiling Project-Specific Bias in Neural Code Models Zhiming Li Yanzhou Li Tianlin Li Mengnan Du Bozhi Wu Yushi Cao Yi Li Yang Liu 31 5 0 19 Jan 2022
Assemble Foundation Models for Automatic Code Summarization Jian Gu P. Salza H. Gall 36 34 0 13 Jan 2022
VarCLR: Variable Semantic Representation Pre-training via Contrastive Learning Qibin Chen Jeremy Lacomis Edward J. Schwartz Graham Neubig Bogdan Vasilescu Claire Le Goues VLM 21 34 0 05 Dec 2021
Bridging Pre-trained Models and Downstream Tasks for Source Code Understanding Deze Wang Zhouyang Jia Shanshan Li Yue Yu Yun Xiong Wei Dong Xiangke Liao 38 80 0 04 Dec 2021
Multilingual training for Software Engineering Toufique Ahmed Prem Devanbu 70 73 0 03 Dec 2021
NER-BERT: A Pre-trained Model for Low-Resource Entity Tagging Zihan Liu Feijun Jiang Yuxiang Hu Chen Shi Pascale Fung 22 37 0 01 Dec 2021
Federated Data Science to Break Down Silos [Vision] Essam Mansour Kavitha Srinivas K. Hose FedML AI4CE 43 8 0 25 Nov 2021
Improving Transferability of Representations via Augmentation-Aware Self-Supervision Hankook Lee Kibok Lee Kimin Lee Honglak Lee Jinwoo Shin SSL 29 51 0 18 Nov 2021
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing Pengcheng He Jianfeng Gao Weizhu Chen 35 1,120 0 18 Nov 2021
FACOS: Finding API Relevant Contents on Stack Overflow with Semantic and Syntactic Analysis K. Luong M. Hadi Ferdian Thung Fatemeh H. Fard David Lo 22 4 0 14 Nov 2021
Counterfactual Explanations for Models of Code Jürgen Cito Işıl Dillig V. Murali S. Chandra AAML LRM 32 48 0 10 Nov 2021
GraphSearchNet: Enhancing GNNs via Capturing Global Dependencies for Semantic Code Search Shangqing Liu Xiaofei Xie J. Siow L. Ma Guozhu Meng Yang Liu GNN 23 53 0 04 Nov 2021
Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey Bonan Min Hayley L Ross Elior Sulem Amir Pouran Ben Veyseh Thien Huu Nguyen Oscar Sainz Eneko Agirre Ilana Heinz Dan Roth LM&MA VLM AI4CE 83 1,035 0 01 Nov 2021
Neural Program Generation Modulo Static Analysis Rohan Mukherjee Yeming Wen Dipak Chaudhari Thomas W. Reps Swarat Chaudhuri C. Jermaine 32 24 0 26 Oct 2021
Cascaded Fast and Slow Models for Efficient Semantic Code Search Akhilesh Deepak Gotmare Junnan Li Chenyu You Guosheng Lin 33 10 0 15 Oct 2021
ReGVD: Revisiting Graph Neural Networks for Vulnerability Detection Van-Anh Nguyen Dai Quoc Nguyen Van Nguyen Trung Le Quan Hung Tran Dinh Q. Phung 31 109 0 14 Oct 2021
Towards Learning (Dis)-Similarity of Source Code from Program Contrasts Yangruibo Ding Luca Buratti Saurabh Pujar Alessandro Morari Baishakhi Ray Saikat Chakraborty 21 36 0 08 Oct 2021
Jointly Learning to Repair Code and Generate Commit Message Jiaqi Bai Long Zhou Ambrosio Blanco Shujie Liu Furu Wei Ming Zhou Zhoujun Li 19 4 0 25 Sep 2021
CodeQA: A Question Answering Dataset for Source Code Comprehension Chenxiao Liu Xiaojun Wan 37 27 0 17 Sep 2021
Learning Bill Similarity with Annotated and Augmented Corpora of Bills Jiseon Kim Elden Griggs In Song Kim Alice H. Oh AILaw 20 5 0 14 Sep 2021
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation Yufan Zhuang Sahil Suneja Veronika Thost Giacomo Domeniconi Alessandro Morari Jim Laredo GNN 27 15 0 07 Sep 2021
CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation Yue Wang Weishi Wang Chenyu You Guosheng Lin 246 1,492 0 02 Sep 2021
AVATAR: A Parallel Corpus for Java-Python Program Translation W. Ahmad Md Golam Rahman Tushar Saikat Chakraborty Kai-Wei Chang 38 79 0 26 Aug 2021
What do pre-trained code models know about code? Anjan Karmakar Romain Robbes ELM 32 87 0 25 Aug 2021
Impact of Evaluation Methodologies on Code Summarization Pengyu Nie Jiyang Zhang Junyi Jessy Li Raymond J. Mooney Miloš Gligorić 24 19 0 22 Aug 2021
On Multi-Modal Learning of Editing Source Code Saikat Chakraborty Baishakhi Ray KELM 24 58 0 15 Aug 2021
Predicting Patch Correctness Based on the Similarity of Failing Test Cases Haoye Tian Yinghua Li Weiguo Pian Abdoul Kader Kaboré Kui Liu Andrew Habib Jacques Klein Tegawende F. Bissyande 36 29 0 28 Jul 2021
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback Mike Wu Noah D. Goodman Chris Piech Chelsea Finn 35 19 0 23 Jul 2021
CVEfixes: Automated Collection of Vulnerabilities and Their Fixes from Open-Source Software G. Bhandari Amara Naseer Leon Moonen 27 133 0 19 Jul 2021
On the Evaluation of Neural Code Summarization Ensheng Shi Yanlin Wang Lun Du Junjie Chen Shi Han Hongyu Zhang Dongmei Zhang Hongbin Sun ELM 122 86 0 15 Jul 2021
Evaluating Large Language Models Trained on Code Mark Chen Jerry Tworek Heewoo Jun Qiming Yuan Henrique Pondé ... Bob McGrew Dario Amodei Sam McCandlish Ilya Sutskever Wojciech Zaremba ELM ALM 78 5,082 0 07 Jul 2021
Learning to Complete Code with Sketches Daya Guo Alexey Svyatkovskiy Jian Yin Nan Duan Marc Brockschmidt Miltiadis Allamanis 21 40 0 18 Jun 2021
Programming Puzzles Tal Schuster Ashwin Kalyan Oleksandr Polozov Adam Tauman Kalai ELM 17 32 0 10 Jun 2021
Reading StackOverflow Encourages Cheating: Adding Question Text Improves Extractive Code Generation Gabriel Orlanski Alex Gittens 29 20 0 08 Jun 2021
CoTexT: Multi-task Learning with Code-Text Transformer Long Phan H. Tran Daniel Le Hieu Duy Nguyen J. Anibal Alec Peltekian Yanfang Ye 21 135 0 18 May 2021
How could Neural Networks understand Programs? Dinglan Peng Shuxin Zheng Yatao Li Guolin Ke Di He Tie-Yan Liu NAI 18 61 0 10 May 2021
MathBERT: A Pre-Trained Model for Mathematical Formula Understanding Shuai Peng Ke Yuan Liangcai Gao Zhi Tang AIMat 43 105 0 02 May 2021
SYNFIX: Automatically Fixing Syntax Errors using Compiler Diagnostics Toufique Ahmed Noah Rose Ledesma Prem Devanbu 59 19 0 29 Apr 2021
Shellcode_IA32: A Dataset for Automatic Shellcode Generation Pietro Liguori Erfan Al-Hossami Domenico Cotroneo R. Natella B. Cukic Samira Shaikh 34 27 0 27 Apr 2021
Literature review on vulnerability detection using NLP technology Jiajie Wu 39 14 0 23 Apr 2021
Code Structure Guided Transformer for Source Code Summarization Shuzheng Gao Cuiyun Gao Yulan He Jichuan Zeng L. Nie Xin Xia Michael R. Lyu 22 96 0 19 Apr 2021
Generating Bug-Fixes Using Pretrained Transformers Dawn Drain Chen Henry Wu Alexey Svyatkovskiy Neel Sundaresan 23 50 0 16 Apr 2021
Evaluating Pre-Trained Models for User Feedback Analysis in Software Engineering: A Study on Classification of App-Reviews M. Hadi Fatemeh H. Fard 21 30 0 12 Apr 2021
Recommending Metamodel Concepts during Modeling Activities with Pre-Trained Language Models Martin Weyssow H. Sahraoui Eugene Syriani 16 50 0 04 Apr 2021
API2Com: On the Improvement of Automatically Generated Code Comments Using API Documentations Ramin Shahbazi Rishab Sharma Fatemeh H. Fard 21 25 0 19 Mar 2021
Unified Pre-training for Program Understanding and Generation Wasi Uddin Ahmad Saikat Chakraborty Baishakhi Ray Kai-Wei Chang 41 748 0 10 Mar 2021
DOBF: A Deobfuscation Pre-Training Objective for Programming Languages Baptiste Roziere Marie-Anne Lachaux Marc Szafraniec Guillaume Lample AI4CE 52 137 0 15 Feb 2021
Code Summarization with Structure-induced Transformer Hongqiu Wu Hai Zhao Min Zhang 41 84 0 29 Dec 2020