Title
Qiskit Code Assistant: Training LLMs for generating Quantum Computing Code Nicolas Dupuis Luca Buratti Sanjay Vishwakarma Aitana Viudes Forrat David Kremer Ismael Faro Ruchir Puri Juan Cruz-Benito 44 7 0 29 May 2024
Kotlin ML Pack: Technical Report Sergey Titov Mikhail Evtikhiev Anton Shapkin Oleg Smirnov Sergei Boytsov ... Dariia Karaeva Maksim Sheptyakov Mikhail Arkhipov T. Bryksin Egor Bogomolov 32 0 0 29 May 2024
Large Language Models for Code Summarization Balázs Szalontai GergHo Szalay Tamás Márton Anna Sike Balázs Pintér Tibor Gregorics ELM 28 1 0 29 May 2024
ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation Houxing Ren Mingjie Zhan Zhongyuan Wu Aojun Zhou Junting Pan Hongsheng Li SyDa 42 7 0 27 May 2024
MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation Jianbo Dai Jianqiao Lu Yunlong Feng Rongju Ruan Ming Cheng Haochen Tan Zhijiang Guo ELM LRM 36 12 0 19 May 2024
LoRA Learns Less and Forgets Less D. Biderman Jose Javier Gonzalez Ortiz Jacob P. Portes Mansheej Paul Philip Greengard ... Sam Havens Vitaliy Chiley Jonathan Frankle Cody Blakeney John P. Cunningham CLL 35 110 0 15 May 2024
Zero-Shot Tokenizer Transfer Benjamin Minixhofer E. Ponti Ivan Vulić VLM 44 9 0 13 May 2024
NExT: Teaching Large Language Models to Reason about Code Execution Ansong Ni Miltiadis Allamanis Arman Cohan Yinlin Deng Kensen Shi Charles Sutton Pengcheng Yin ReLM LRM 36 34 0 23 Apr 2024
Introducing Super RAGs in Mistral 8x7B-v1 Ayush Thakur Raghav Gupta VLM 35 2 0 13 Apr 2024
JetMoE: Reaching Llama2 Performance with 0.1M Dollars Yikang Shen Zhen Guo Tianle Cai Zengyi Qin MoE ALM 46 26 0 11 Apr 2024
RAR-b: Reasoning as Retrieval Benchmark Chenghao Xiao G. Thomas Al Moubayed LRM RALM 36 8 0 09 Apr 2024
The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers Hussein Mozannar Valerie Chen Mohammed Alsobay Subhro Das Sebastian Zhao Dennis L. Wei Manish Nagireddy P. Sattigeri Ameet Talwalkar David Sontag ELM 46 18 0 03 Apr 2024
Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models Hyungjoo Chae Yeonghyeon Kim Seungone Kim Kai Tzu-iunn Ong Beong-woo Kwak ... Seonghwan Kim Taeyoon Kwon Jiwan Chung Youngjae Yu Jinyoung Yeo LRM ReLM 32 14 0 03 Apr 2024
Stable Code Technical Report Nikhil Pinnaparaju Reshinth Adithyan Duy Phung J. Tow James Baicoianu ... Maksym Zhuravinskyi Dakota Mahan Marco Bellagente Carlos Riquelme Nathan Cooper LRM ALM 25 13 0 01 Apr 2024
Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order Taishi Nakamura Mayank Mishra Simone Tedeschi Yekun Chai Jason T Stillerman ... Virendra Mehta Matthew Blumberg Victor May Huu Nguyen S. Pyysalo LRM 31 7 0 30 Mar 2024
RewardBench: Evaluating Reward Models for Language Modeling Nathan Lambert Valentina Pyatkin Jacob Morrison Lester James Validad Miranda Bill Yuchen Lin ... Sachin Kumar Tom Zick Yejin Choi Noah A. Smith Hanna Hajishirzi ALM 85 214 0 20 Mar 2024
CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences Martin Weyssow Aton Kamanda H. Sahraoui ALM 64 32 0 14 Mar 2024
Bugs in Large Language Models Generated Code: An Empirical Study Florian Tambon Arghavan Moradi Dakhel Amin Nikanjam Foutse Khomh Michel C. Desmarais G. Antoniol ELM 39 33 0 13 Mar 2024
DevBench: A Comprehensive Benchmark for Software Development Bowen Li Wenhan Wu Ziwei Tang Lin Shi John Yang ... He Du Ping Yang Dahua Lin Chao Peng Kai Chen 93 10 0 13 Mar 2024
Language models scale reliably with over-training and on downstream tasks S. Gadre Georgios Smyrnis Vaishaal Shankar Suchin Gururangan Mitchell Wortsman ... Y. Carmon Achal Dave Reinhard Heckel Niklas Muennighoff Ludwig Schmidt ALM ELM LRM 108 40 0 13 Mar 2024
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models Linyi Li Shijie Geng Zhenwen Li Yibo He Hao Yu Ziyue Hua Guanghan Ning Siwei Wang Tao Xie Hongxia Yang ELM 37 2 0 11 Mar 2024
CommitBench: A Benchmark for Commit Message Generation Maximilian Schall Tamara Czinczoll Gerard de Melo 24 3 0 08 Mar 2024
API Pack: A Massive Multi-Programming Language Dataset for API Call Generation Zhen Guo Adriana Meza Soria Wei Sun Yikang Shen Rameswar Panda ELM ALM 55 1 0 14 Feb 2024
Instruction Tuning for Secure Code Generation Jingxuan He Mark Vero Gabriela Krasnopolska Martin Vechev 21 16 0 14 Feb 2024
Unsupervised Evaluation of Code LLMs with Round-Trip Correctness Miltiadis Allamanis Sheena Panthaplackel Pengcheng Yin ALM OffRL LRM 43 9 0 13 Feb 2024
OpenFedLLM: Training Large Language Models on Decentralized Private Data via Federated Learning Rui Ye Wenhao Wang Jingyi Chai Dihan Li Zexi Li Yinda Xu Yaxin Du Yanfeng Wang Siheng Chen ALM FedML AIFin 11 76 0 10 Feb 2024
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning Shivalika Singh Freddie Vargus Daniel D'souza Börje F. Karlsson Abinaya Mahendiran ... Max Bartolo Julia Kreutzer A. Ustun Marzieh Fadaee Sara Hooker 119 117 0 09 Feb 2024
OLMo: Accelerating the Science of Language Models Dirk Groeneveld Iz Beltagy Pete Walsh Akshita Bhagia Rodney Michael Kinney ... Jesse Dodge Kyle Lo Luca Soldaini Noah A. Smith Hanna Hajishirzi OSLM 138 358 0 01 Feb 2024
A Study on Training and Developing Large Language Models for Behavior Tree Generation Fu Li Xueying Wang Bin Li Yunlong Wu Yanzhen Wang Xiaodong Yi 14 4 0 16 Jan 2024
JumpCoder: Go Beyond Autoregressive Coder via Online Modification Mouxiang Chen Hao Tian Zhongxi Liu Xiaoxue Ren Jianling Sun SyDa KELM 43 2 0 15 Jan 2024
RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program Repair André Silva Sen Fang Martin Monperrus MoMe KELM 67 38 0 25 Dec 2023
Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions Federico Cassano Luisa Li Akul Sethi Noah Shinn Abby Brennan-Jones ... Edward Berman George Chakhnashvili Anton Lozhkov C. Anderson Arjun Guha ELM KELM 45 20 0 11 Dec 2023
Self-Infilling Code Generation Lin Zheng Jianbo Yuan Zhi Zhang Hongxia Yang Lingpeng Kong 24 2 0 29 Nov 2023
The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI Shayne Longpre Robert Mahari Anthony Chen Naana Obeng-Marnu Damien Sileo ... K. Bollacker Tongshuang Wu Luis Villa Sandy Pentland Sara Hooker 20 56 0 25 Oct 2023
SWE-bench: Can Language Models Resolve Real-World GitHub Issues? Carlos E. Jimenez John Yang Alexander Wettig Shunyu Yao Kexin Pei Ofir Press Karthik Narasimhan ELM 34 469 0 10 Oct 2023
Qwen Technical Report Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang ... Zhenru Zhang Chang Zhou Jingren Zhou Xiaohuan Zhou Tianhang Zhu OSLM 29 1,577 0 28 Sep 2023
Flesch or Fumble? Evaluating Readability Standard Alignment of Instruction-Tuned Language Models Joseph Marvin Imperial Harish Tayyar Madabushi ELM 30 11 0 11 Sep 2023
BioCoder: A Benchmark for Bioinformatics Code Generation with Large Language Models Xiangru Tang Bill Qian Rick Gao Jiakang Chen Xinyun Chen Mark B. Gerstein 23 11 0 31 Aug 2023
AskIt: Unified Programming Interface for Programming with Large Language Models Katsumi Okuda Saman P. Amarasinghe ELM 12 2 0 29 Aug 2023
Knowledge Transfer from High-Resource to Low-Resource Programming Languages for Code LLMs Federico Cassano John Gouwar Francesca Lucchetti Claire Schlesinger Anders Freeman Carolyn Jane Anderson Molly Q. Feldman Michael Greenberg Abhinav Jangda Arjun Guha 25 31 0 19 Aug 2023
RepoFusion: Training Code Models to Understand Your Repository Disha Shrivastava Denis Kocetkov H. D. Vries Dzmitry Bahdanau Torsten Scholak 81 27 0 19 Jun 2023
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages Erik Nijkamp A. Ghobadzadeh Caiming Xiong Silvio Savarese Yingbo Zhou 152 164 0 03 May 2023
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation Jiawei Liu Chun Xia Yuyao Wang Lingming Zhang ELM ALM 186 799 0 02 May 2023
ICE-Score: Instructing Large Language Models to Evaluate Code Terry Yue Zhuo ELM ALM 41 38 0 27 Apr 2023
Errors are Useful Prompts: Instruction Guided Task Programming with Verifier-Assisted Iterative Prompting Marta Skreta Naruki Yoshikawa Sebastian Arellano-Rubach Zhi Ji L. B. Kristensen Kourosh Darvish Alán Aspuru-Guzik Florian Shkurti Animesh Garg 78 56 0 24 Mar 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 298 2,232 0 22 Mar 2023
What Language Model to Train if You Have One Million GPU Hours? Teven Le Scao Thomas Wang Daniel Hesslow Lucile Saulnier Stas Bekman ... Lintang Sutawika Jaesung Tae Zheng-Xin Yong Julien Launay Iz Beltagy MoE AI4CE 230 103 0 27 Oct 2022
Multi-lingual Evaluation of Code Generation Models Ben Athiwaratkun Sanjay Krishna Gouda Zijian Wang Xiaopeng Li Yuchen Tian ... Baishakhi Ray Parminder Bhatia Sudipta Sengupta Dan Roth Bing Xiang ELM 117 160 0 26 Oct 2022
EditEval: An Instruction-Based Benchmark for Text Improvements Jane Dwivedi-Yu Timo Schick Zhengbao Jiang Maria Lomeli Patrick Lewis Gautier Izacard Edouard Grave Sebastian Riedel Fabio Petroni 50 26 0 27 Sep 2022
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned Deep Ganguli Liane Lovitt John Kernion Amanda Askell Yuntao Bai ... Nicholas Joseph Sam McCandlish C. Olah Jared Kaplan Jack Clark 225 446 0 23 Aug 2022