Title
A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity Shayne Longpre Gregory Yauney Emily Reif Katherine Lee Adam Roberts ... Denny Zhou Jason W. Wei Kevin Robinson David M. Mimno Daphne Ippolito 21 148 0 22 May 2023
RWKV: Reinventing RNNs for the Transformer Era Bo Peng Eric Alcaide Quentin G. Anthony Alon Albalak Samuel Arcadinho ... Qihang Zhao P. Zhou Qinghua Zhou Jian Zhu Rui-Jie Zhu 90 557 0 22 May 2023
Iterative Forward Tuning Boosts In-Context Learning in Language Models Jiaxi Yang Binyuan Hui Min Yang Bailin Wang Bowen Li Binhua Li Fei Huang Yongbin Li 41 16 0 22 May 2023
GPT-SW3: An Autoregressive Language Model for the Nordic Languages Ariel Ekgren Amaru Cuba Gyllensten Felix Stollenwerk Joey Öhman T. Isbister Evangelia Gogoulou F. Carlsson Alice Heiman Judit Casademont Magnus Sahlgren 27 13 0 22 May 2023
Can We Edit Factual Knowledge by In-Context Learning? Ce Zheng Lei Li Qingxiu Dong Yuxuan Fan Zhiyong Wu Jingjing Xu Baobao Chang KELM 22 186 0 22 May 2023
Quantifying Association Capabilities of Large Language Models and Its Implications on Privacy Leakage Hanyin Shao Jie Huang Shen Zheng Kevin Chen-Chuan Chang PILM 22 25 0 22 May 2023
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation Suhyeon Lee Won Jun Kim Jinho Chang Jong Chul Ye MedIm 32 47 0 19 May 2023
A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation Xiaowei Huang Wenjie Ruan Wei Huang Gao Jin Yizhen Dong ... Sihao Wu Peipei Xu Dengyu Wu André Freitas Mustafa A. Mustafa ALM 39 82 0 19 May 2023
Learning In-context Learning for Named Entity Recognition Jiawei Chen Yaojie Lu Hongyu Lin Jie Lou Wei Jia Dai Dai Hua-Hong Wu Boxi Cao Xianpei Han Le Sun NAI 49 19 0 18 May 2023
Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation Xinyu Li Jiang-Tian Xue Zheng Xie Ming Li LRM 19 26 0 18 May 2023
Temporal Knowledge Graph Forecasting Without Knowledge Using In-Context Learning Dong-Ho Lee Kian Ahrabian Woojeong Jin Fred Morstatter Jay Pujara 27 31 0 17 May 2023
"I'm fully who I am": Towards Centering Transgender and Non-Binary Voices to Measure Biases in Open Language Generation Anaelia Ovalle Palash Goyal Jwala Dhamala Zachary Jaggers Kai-Wei Chang Aram Galstyan R. Zemel Rahul Gupta 25 61 0 17 May 2023
A Language Model of Java Methods with Train/Test Deduplication Chia-Yi Su Aakash Bansal Vijayanta Jain S. Ghanavati Collin McMillan SyDa VLM 26 10 0 15 May 2023
CodeT5+: Open Code Large Language Models for Code Understanding and Generation Yue Wang Hung Le Akhilesh Deepak Gotmare Nghi D. Q. Bui Junnan Li Steven C. H. Hoi ALM 27 461 0 13 May 2023
Evaluating Open-Domain Question Answering in the Era of Large Language Models Ehsan Kamalloo Nouha Dziri C. Clarke Davood Rafiei ELM 16 99 0 11 May 2023
StarCoder: may the source be with you! Raymond Li Loubna Ben Allal Yangtian Zi Niklas Muennighoff Denis Kocetkov ... Sean M. Hughes Thomas Wolf Arjun Guha Leandro von Werra H. D. Vries 50 716 0 09 May 2023
Should ChatGPT and Bard Share Revenue with Their Data Providers? A New Business Model for the AI Era Dong Zhang 18 3 0 04 May 2023
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs Deepak Narayanan Keshav Santhanam Peter Henderson Rishi Bommasani Tony Lee Percy Liang 145 3 0 03 May 2023
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes Lokesh Nagalapatti Chun-Liang Li Chih-Kuan Yeh Hootan Nakhost Yasuhisa Fujii Alexander Ratner Ranjay Krishna Chen-Yu Lee Tomas Pfister ALM 220 502 0 03 May 2023
SCOTT: Self-Consistent Chain-of-Thought Distillation Jamie Yap Zhengyang Wang Zheng Li K. Lynch Bing Yin Xiang Ren LRM 64 93 0 03 May 2023
Automated Code generation for Information Technology Tasks in YAML through Large Language Models Saurabh Pujar Luca Buratti Xiaojie Guo Nicolas Dupuis B. Lewis ... Atin Sood Ganesh Nalawade Matt Jones Alessandro Morari Ruchi Puri 47 4 0 02 May 2023
The Benefits of Bad Advice: Autocontrastive Decoding across Model Layers Ariel Gera Roni Friedman Ofir Arviv Chulaka Gunasekara Benjamin Sznajder Noam Slonim Eyal Shnarch 43 19 0 02 May 2023
Beyond Classification: Financial Reasoning in State-of-the-Art Language Models Guijin Son Han-Na Jung Moonjeong Hahm Keonju Na Sol Jin AIFin LRM 50 18 0 30 Apr 2023
Empirical Analysis of the Strengths and Weaknesses of PEFT Techniques for LLMs George Pu Anirudh Jain Jihan Yin Russell Kaplan 41 40 0 28 Apr 2023
Training and Evaluation of a Multilingual Tokenizer for GPT-SW3 Felix Stollenwerk 23 7 0 28 Apr 2023
Translate to Disambiguate: Zero-shot Multilingual Word Sense Disambiguation with Pretrained Language Models Haoqiang Kang Terra Blevins Luke Zettlemoyer 27 2 0 26 Apr 2023
Emergent and Predictable Memorization in Large Language Models Stella Biderman USVSN Sai Prashanth Lintang Sutawika Hailey Schoelkopf Quentin G. Anthony Shivanshu Purohit Edward Raf 29 116 0 21 Apr 2023
An Evaluation on Large Language Model Outputs: Discourse and Memorization Adrian de Wynter Xun Wang Alex Sokolov Qilong Gu Si-Qing Chen ELM 84 32 0 17 Apr 2023
Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation Yunjie Ji Yan Gong Yong Deng Yiping Peng Qiang Niu Baochang Ma Xiangang Li ALM ELM 22 22 0 16 Apr 2023
Are LLMs All You Need for Task-Oriented Dialogue? Vojtvech Hudevcek Ondrej Dusek 26 56 0 13 Apr 2023
On Efficient Training of Large-Scale Deep Learning Models: A Literature Review Li Shen Yan Sun Zhiyuan Yu Liang Ding Xinmei Tian Dacheng Tao VLM 30 41 0 07 Apr 2023
Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster Nolan Dey Gurpreet Gosal Zhiming Chen Chen Hemant Khachane William Marshall Ribhu Pathria Marvin Tom Joel Hestness MoE LRM 25 98 0 06 Apr 2023
Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling Stella Biderman Hailey Schoelkopf Quentin G. Anthony Herbie Bradley Kyle O'Brien ... USVSN Sai Prashanth Edward Raff Aviya Skowron Lintang Sutawika Oskar van der Wal 36 1,174 0 03 Apr 2023
RPTQ: Reorder-based Post-training Quantization for Large Language Models Zhihang Yuan Lin Niu Jia-Wen Liu Wenyu Liu Xinggang Wang Yuzhang Shang Guangyu Sun Qiang Wu Jiaxiang Wu Bingzhe Wu MQ 35 79 0 03 Apr 2023
LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language Models Patrik Puchert Poonam Poonam Christian van Onzenoodt Timo Ropinski 20 8 0 02 Apr 2023
Keep the Conversation Going: Fixing 162 out of 337 bugs for $0.42 each using ChatGPT$ Chun Xia Lingming Zhang KELM LRM 36 121 0 01 Apr 2023
CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X Qinkai Zheng Xiao Xia Xu Zou Yuxiao Dong Shanshan Wang ... Andi Wang Yang Li Teng Su Zhilin Yang Jie Tang ELM ALM SyDa 57 317 0 30 Mar 2023
BloombergGPT: A Large Language Model for Finance Shijie Wu Ozan Irsoy Steven Lu Vadim Dabravolski Mark Dredze Sebastian Gehrmann P. Kambadur David S. Rosenberg Gideon Mann AIFin 76 786 0 30 Mar 2023
The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling Joey Öhman S. Verlinden Ariel Ekgren Amaru Cuba Gyllensten T. Isbister Evangelia Gogoulou F. Carlsson Magnus Sahlgren 14 10 0 30 Mar 2023
Improving Code Generation by Training with Natural Language Feedback Angelica Chen Jérémy Scheurer Tomasz Korbak Jon Ander Campos Jun Shern Chan Samuel R. Bowman Kyunghyun Cho Ethan Perez SyDa ALM AI4CE 36 76 0 28 Mar 2023
Unlocking the Potential of ChatGPT: A Comprehensive Exploration of its Applications, Advantages, Limitations, and Future Directions in Natural Language Processing Walid Hariri AI4MH LM&MA 30 85 0 27 Mar 2023
LMCanvas: Object-Oriented Interaction to Personalize Large Language Model-Powered Writing Environments Tae Soo Kim Arghya Sarkar Yoonjoo Lee Minsuk Chang Juho Kim LLMAG MLLM 21 10 0 27 Mar 2023
MGTBench: Benchmarking Machine-Generated Text Detection Xinlei He Xinyue Shen Z. Chen Michael Backes Yang Zhang DeLMO 61 100 0 26 Mar 2023
Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases Yunjie Ji Yong Deng Yan Gong Yiping Peng Qiang Niu L. Zhang Baochang Ma Xiangang Li ALM 19 93 0 26 Mar 2023
Fundamentals of Generative Large Language Models and Perspectives in Cyber-Defense Andrei Kucharavy Z. Schillaci Loic Maréchal Maxime Wursch Ljiljana Dolamic Remi Sabonnadiere Dimitri Percia David Alain Mermoud Vincent Lenders ELM AI4CE 35 31 0 21 Mar 2023
EVA-02: A Visual Representation for Neon Genesis Yuxin Fang Quan-Sen Sun Xinggang Wang Tiejun Huang Xinlong Wang Yue Cao VLM ViT CLIP 40 259 0 20 Mar 2023
cito: An R package for training neural networks using torch Christian Amesoeder F. Hartig Maximilian Pichler 31 3 0 16 Mar 2023
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models Potsawee Manakul Adian Liusie Mark J. F. Gales HILM LRM 152 391 0 15 Mar 2023
Eliciting Latent Predictions from Transformers with the Tuned Lens Nora Belrose Zach Furman Logan Smith Danny Halawi Igor V. Ostrovsky Lev McKinney Stella Biderman Jacob Steinhardt 22 193 0 14 Mar 2023
Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences Yunjie Ji Yan Gong Yiping Peng Chao Ni Peiyan Sun Dongyu Pan Baochang Ma Xiangang Li ELM ALM AI4MH 24 37 0 14 Mar 2023