v1v2v3 (latest)

DOBF: A Deobfuscation Pre-Training Objective for Programming Languages

15 February 2021

Baptiste Roziere

Papers citing "DOBF: A Deobfuscation Pre-Training Objective for Programming Languages"

23 / 23 papers shown

Title
Deconstructing Obfuscation: A four-dimensional framework for evaluating Large Language Models assembly code deobfuscation capabilities Anton Tkachenko Dmitrij Suskevic Benjamin Adolphi 48 0 0 26 May 2025
Syntax and Domain Aware Model for Unsupervised Program Translation Fang Liu Jia Li Li Zhang 67 18 0 08 Feb 2023
Measuring The Impact Of Programming Language Distribution Gabriel Orlanski Kefan Xiao Xavier Garcia Jeffrey Hui Joshua Howland J. Malmaud Jacob Austin Rishah Singh Michele Catasta 165 33 0 03 Feb 2023
SantaCoder: don't reach for the stars! Loubna Ben Allal Raymond Li Denis Kocetkov Chenghao Mou Christopher Akiki ... Sean M. Hughes Daniel Fried Arjun Guha H. D. Vries Leandro von Werra 197 199 0 09 Jan 2023
A Survey on Pretrained Language Models for Neural Code Intelligence Yichen Xu Yanqiao Zhu 47 17 0 20 Dec 2022
The Stack: 3 TB of permissively licensed source code Denis Kocetkov Raymond Li Loubna Ben Allal Jia Li Chenghao Mou ... Sean M. Hughes Thomas Wolf Dzmitry Bahdanau Leandro von Werra H. D. Vries 104 339 0 20 Nov 2022
Evaluating How Fine-tuning on Bimodal Data Effects Code Generation Gabriel Orlanski Seonhye Yang Michael Healy ALM 47 5 0 15 Nov 2022
Efficient Training of Language Models to Fill in the Middle Mohammad Bavarian Heewoo Jun Nikolas Tezak John Schulman C. McLeavey Jerry Tworek Mark Chen 89 197 0 28 Jul 2022
NatGen: Generative pre-training by "Naturalizing" source code Saikat Chakraborty Toufique Ahmed Yangruibo Ding Prem Devanbu Baishakhi Ray AI4CE 116 117 0 15 Jun 2022
StructCoder: Structure-Aware Transformer for Code Generation Sindhu Tipirneni Ming Zhu Chandan K. Reddy 98 60 0 10 Jun 2022
CodeAttack: Code-Based Adversarial Attacks for Pre-trained Programming Language Models Akshita Jha Chandan K. Reddy SILM ELM AAML 114 68 0 31 May 2022
VulBERTa: Simplified Source Code Pre-Training for Vulnerability Detection Hazim Hanif S. Maffeis 129 113 0 25 May 2022
Deep Learning Meets Software Engineering: A Survey on Pre-Trained Models of Source Code Changan Niu Chuanyi Li Bin Luo Vincent Ng SyDa VLM 102 50 0 24 May 2022
AdaptivePaste: Code Adaptation through Learning Semantics-aware Variable Usage Representations Xiaoyu Liu Jinu Jang Neel Sundaresan Miltiadis Allamanis Alexey Svyatkovskiy 66 2 0 23 May 2022
On The Cross-Modal Transfer from Natural Language to Code through Adapter Modules Divyam Goel Raman Grover Fatemeh H. Fard 76 19 0 19 Apr 2022
InCoder: A Generative Model for Code Infilling and Synthesis Daniel Fried Armen Aghajanyan Jessy Lin Sida I. Wang Eric Wallace Freda Shi Ruiqi Zhong Wen-tau Yih Luke Zettlemoyer M. Lewis SyDa 91 659 0 12 Apr 2022
Leveraging Automated Unit Tests for Unsupervised Code Translation Baptiste Roziere Jie M. Zhang François Charton Mark Harman Gabriel Synnaeve Guillaume Lample 110 116 0 13 Oct 2021
Unsupervised Neural Machine Translation with Generative Language Models Only Jesse Michael Han Igor Babuschkin Harrison Edwards Arvind Neelakantan Tao Xu ... Alex Ray Pranav Shyam Aditya A. Ramesh Alec Radford Ilya Sutskever 110 37 0 11 Oct 2021
Towards Learning (Dis)-Similarity of Source Code from Program Contrasts Yangruibo Ding Luca Buratti Saurabh Pujar Alessandro Morari Baishakhi Ray Saikat Chakraborty 82 36 0 08 Oct 2021
CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation Yue Wang Weishi Wang Shafiq Joty Guosheng Lin 331 1,609 0 02 Sep 2021
AVATAR: A Parallel Corpus for Java-Python Program Translation W. Ahmad Md Golam Rahman Tushar Saikat Chakraborty Kai-Wei Chang 84 83 0 26 Aug 2021
Reading StackOverflow Encourages Cheating: Adding Question Text Improves Extractive Code Generation Gabriel Orlanski Alex Gittens 57 20 0 08 Jun 2021
SYNFIX: Automatically Fixing Syntax Errors using Compiler Diagnostics Toufique Ahmed Noah Rose Ledesma Prem Devanbu 106 19 0 29 Apr 2021