Unified Pre-training for Program Understanding and Generation

10 March 2021

Papers citing "Unified Pre-training for Program Understanding and Generation"

50 / 316 papers shown

Title
Evaluate-and-Purify: Fortifying Code Language Models Against Adversarial Attacks Using LLM-as-a-Judge Wenhan Mu Ling Xu Shuren Pei Le Mi Huichi Zhou AAML ELM 53 0 0 28 Apr 2025
Large Language Models are Qualified Benchmark Builders: Rebuilding Pre-Training Datasets for Advancing Code Intelligence Tasks Kang Yang Xinjun Mao Shangwen Wang Yanjie Wang Tanghaoran Zhang Bo Lin Yihao Qin Zhang Zhang Yao Lu Kamal Al-Sabahi ALM 167 1 0 28 Apr 2025
Small Models, Big Tasks: An Exploratory Empirical Study on Small Language Models for Function Calling Ishan Kavathekar Raghav Donakanti Ponnurangam Kumaraguru Karthik Vaidhyanathan 58 0 0 27 Apr 2025
DocAgent: A Multi-Agent System for Automated Code Documentation Generation Dayu Yang Antoine Simoulin Xin Qian Xiaoyi Liu Yuwei Cao Zhaopu Teng Grey Yang LLMAG 56 0 0 11 Apr 2025
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs Wasi Uddin Ahmad Aleksander Ficek Mehrzad Samadi Jocelyn Huang Vahid Noroozi Somshubra Majumdar Boris Ginsburg ALM 42 1 0 05 Apr 2025
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding Wasi Uddin Ahmad Sean Narenthiran Somshubra Majumdar Aleksander Ficek Siddhartha Jain Jocelyn Huang Vahid Noroozi Boris Ginsburg LRM 55 3 0 02 Apr 2025
On Benchmarking Code LLMs for Android Malware Analysis Yiling He Hongyu She Xingzhi Qian Xinran Zheng Zhuo Chen Zhanyue Qin Lorenzo Cavallaro ELM 50 1 0 01 Apr 2025
Semantic-Preserving Transformations as Mutation Operators: A Study on Their Effectiveness in Defect Detection Max Hort Linas Vidziunas Leon Moonen 54 0 0 30 Mar 2025
debug-gym: A Text-Based Environment for Interactive Debugging Xingdi Yuan Morgane M Moss Charbel El Feghali Chinmay Singh Darya Moldavskaya ... Lucas Caccia Matheus Pereira Minseon Kim Alessandro Sordoni Marc-Alexandre Côté LLMAG 73 2 0 27 Mar 2025
LLM-Aided Customizable Profiling of Code Data Based On Programming Language Concepts Pankaj Thorat Adnan Qidwai Adrija Dhar Aishwariya Chakraborty Anand Eswaran Hima Patel Praveen Jayachandran 59 0 0 19 Mar 2025
UniGenCoder: Merging Seq2Seq and Seq2Tree Paradigms for Unified Code Generation Liangying Shao Yanfu Yan Denys Poshyvanyk Jinsong Su 41 1 0 18 Feb 2025
LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks Xin Zhou Martin Weyssow Ratnadira Widyasari Ting Zhang Junda He Yunbo Lyu Jianming Chang Beiqi Zhang Dan Huang David Lo PILM 294 1 0 10 Feb 2025
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging Md. Ashraful Islam Mohammed Eunus Ali Md. Rizwan Parvez LLMAG 68 2 0 08 Feb 2025
Towards Making Flowchart Images Machine Interpretable Shivalika Singh Prajwal Gatti Yogesh Kumar Vikash Yadav Anand Mishra 53 5 0 29 Jan 2025
Exploring Large Language Models for Semantic Analysis and Categorization of Android Malware Brandon J Walton Mst Eshita Khatun James M Ghawaly Aisha Ali-Gombe 41 2 0 10 Jan 2025
Harnessing the Power of LLM to Support Binary Taint Analysis Puzhuo Liu Chengnian Sun Yaowen Zheng Xuan Feng Chuan Qin ... Zhenyang Xu Zhi Li Peng Di Yu Jiang Limin Sun 37 1 0 10 Jan 2025
Transducer Tuning: Efficient Model Adaptation for Software Tasks Using Code Property Graphs Imam Nur Bani Yusuf Lingxiao Jiang 88 0 0 18 Dec 2024
Code LLMs: A Taxonomy-based Survey Nishat Raihan Christian D. Newman Marcos Zampieri 97 1 0 11 Dec 2024
Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation Md. Asif Haider Ayesha Binte Mostofa Sk. Sabit Bin Mosaddek Anindya Iqbal Toufique Ahmed ALM 60 2 0 15 Nov 2024
A Survey on Adversarial Machine Learning for Code Data: Realistic Threats, Countermeasures, and Interpretations Yulong Yang Haoran Fan Chenhao Lin Qian Li Zhengyu Zhao Chao Shen Xiaohong Guan AAML 48 0 0 12 Nov 2024
Fine-Tuning LLMs for Code Mutation: A New Era of Cyber Threats Mohammad Setak Pooria Madani 40 2 0 29 Oct 2024
L3Ms -- Lagrange Large Language Models Guneet S. Dhillon Xingjian Shi Yee Whye Teh Alex Smola 165 0 0 28 Oct 2024
CodeRosetta: Pushing the Boundaries of Unsupervised Code Translation for Parallel Programming Ali TehraniJamsaz Arijit Bhattacharjee Le Chen Nesreen Ahmed Amir Yazdanbakhsh Ali Jannesari 34 5 0 27 Oct 2024
Adversarial Attacks on Large Language Models Using Regularized Relaxation Samuel Jacob Chacko Sajib Biswas Chashi Mahiul Islam Fatema Tabassum Liza Xiuwen Liu AAML 31 2 0 24 Oct 2024
Building A Coding Assistant via the Retrieval-Augmented Language Model Xinze Li Hanbin Wang Zhenghao Liu S. Yu Shuo Wang Yukun Yan Yukai Fu Yu Gu Ge Yu 3DV RALM 23 2 0 21 Oct 2024
Self-Explained Keywords Empower Large Language Models for Code Generation Lishui Fan Mouxiang Chen Zhongxin Liu 42 1 0 21 Oct 2024
Joint Verification and Refinement of Language Models for Safety-Constrained Planning Yunhao Yang William Ward Zichao Hu Joydeep Biswas Ufuk Topcu 34 0 0 18 Oct 2024
zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning Zixiang Xian Chenhui Cui Rubing Huang Chunrong Fang Zhenyu Chen 31 0 0 23 Sep 2024
VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching Arastoo Zibaeirad Marco Vieira 29 7 0 16 Sep 2024
Understanding Defects in Generated Codes by Language Models Ali Mohammadi Esfahani N. Kahani S. Ajila 25 1 0 23 Aug 2024
Top Pass: Improve Code Generation by Pass@k-Maximized Code Ranking Zhi-Cun Lyu Xin-Ye Li Zheng Xie Ming Li 47 7 0 11 Aug 2024
COAST: Enhancing the Code Debugging Ability of LLMs through Communicative Agent Based Data Synthesis Weiqing Yang Hanbin Wang Zhenghao Liu Xinze Li Yukun Yan Shuo Wang Yu Gu Minghe Yu Zhiyuan Liu Ge Yu 50 2 0 09 Aug 2024
Enhancing AI-based Generation of Software Exploits with Contextual Information Pietro Liguori Cristina Improta R. Natella B. Cukic Domenico Cotroneo 29 0 0 05 Aug 2024
Towards More Trustworthy and Interpretable LLMs for Code through Syntax-Grounded Explanations David Nader-Palacio Daniel Rodríguez-Cárdenas Alejandro Velasco Dipin Khati Kevin Moran Denys Poshyvanyk 55 6 0 12 Jul 2024
Defending Code Language Models against Backdoor Attacks with Deceptive Cross-Entropy Loss Guang Yang Yu Zhou Xiang Chen Xiangyu Zhang Terry Yue Zhuo David Lo Taolue Chen AAML 57 4 0 12 Jul 2024
Prompting Techniques for Secure Code Generation: A Systematic Investigation Catherine Tony Nicolás E. Díaz Ferreyra Markus Mutas Salem Dhiff Riccardo Scandariato SILM 79 9 0 09 Jul 2024
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study Shihan Dou Haoxiang Jia Shenxi Wu Huiyuan Zheng Weikang Zhou ... Xunliang Cai Tao Gui Xipeng Qiu Qi Zhang Xuanjing Huang 34 32 0 08 Jul 2024
Looking into Black Box Code Language Models Muhammad Umair Haider Umar Farooq A. B. Siddique Mark Marron 39 2 0 05 Jul 2024
MPCODER: Multi-user Personalized Code Generator with Explicit and Implicit Style Representation Learning Zhenlong Dai Chang Yao WenKang Han Ying Yuan Zhipeng Gao Jingyuan Chen 26 10 0 25 Jun 2024
A Critical Study of What Code-LLMs (Do Not) Learn Abhinav Anand Shweta Verma Krishna Narasimhan Mira Mezini 40 4 0 17 Jun 2024
Predicting the Understandability of Computational Notebooks through Code Metrics Analysis M. M. Ghahfarokhi Alireza Asadi Arash Asgari Bardia Mohammadi Masih Beigi Rizi Abbas Heydarnoori 39 0 0 16 Jun 2024
Out of style: Misadventures with LLMs and code style transfer Karl Munson Chih-Kai Ting Serenity Wade Anish Savla Julian T Dolby Kiran Kate Kavitha Srinivas 35 0 0 14 Jun 2024
Leveraging Large Language Models for Efficient Failure Analysis in Game Development Leonardo Marini Linus Gisslén Alessandro Sestini 54 0 0 11 Jun 2024
A Survey on Large Language Models for Code Generation Juyong Jiang Fan Wang Jiasi Shen Sungju Kim Sunghun Kim 53 166 0 01 Jun 2024
Confidence-Aware Sub-Structure Beam Search (CABS): Mitigating Hallucination in Structured Data Generation with Large Language Models Chengwei Wei Kee Kiat Koo Amir Tavanaei Karim Bouyarmane 34 1 0 30 May 2024
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving Md. Ashraful Islam Mohammed Eunus Ali Md. Rizwan Parvez SyDa 26 48 0 18 May 2024
Automated Program Repair: Emerging trends pose and expose problems for benchmarks J. Renzullo Pemma Reiter Westley Weimer Stephanie Forrest 39 1 0 08 May 2024
Large Language Models for Cyber Security: A Systematic Literature Review HanXiang Xu Shenao Wang Ningke Li Kaidi Wang Yanjie Zhao Kai Chen Ting Yu Yang Liu Haoyu Wang 37 23 0 08 May 2024
Automatic Programming: Large Language Models and Beyond Michael R. Lyu Baishakhi Ray Abhik Roychoudhury Shin Hwei Tan Patanamon Thongtanunam 33 15 0 03 May 2024
Towards Neural Synthesis for SMT-Assisted Proof-Oriented Programming Saikat Chakraborty Gabriel Ebner Siddharth Bhat Sarah Fakhoury Sakina Fatima Shuvendu K. Lahiri Nikhil Swamy 45 15 0 03 May 2024