Title
SCM: Enhancing Large Language Model with Self-Controlled Memory Framework Bin Wang Xinnian Liang Jian Yang Huijia Huang Shuangzhi Wu Peihao Wu Lu Lu Zejun Ma Zhoujun Li LLMAG KELM RALM 145 29 0 26 Apr 2023
AGI: Artificial General Intelligence for Education Ehsan Latif Gengchen Mai Matthew Nyaaba Xuansheng Wu Ninghao Liu Guoyu Lu Sheng Li Tianming Liu Xiaoming Zhai ELM AI4CE 142 24 0 24 Apr 2023
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment Hanze Dong Wei Xiong Deepanshu Goyal Yihan Zhang Winnie Chow Boyao Wang Shizhe Diao Jipeng Zhang Kashun Shum Tong Zhang ALM 162 470 0 13 Apr 2023
RRHF: Rank Responses to Align Language Models with Human Feedback without tears Zheng Yuan Hongyi Yuan Chuanqi Tan Wei Wang Songfang Huang Feiran Huang ALM 192 385 0 11 Apr 2023
The Vector Grounding Problem Dimitri Coelho Mollo Raphael Milliere 146 28 0 04 Apr 2023
Evaluating Large Language Models on a Highly-specialized Topic, Radiation Oncology Physics J. Holmes Zheng Liu Hua Zhou Yuzhen Ding Terence T. Sio ... Jonathan B. Ashman Xiang Li Tianming Liu Jiajian Shen Wen Liu LM&MA AI4CE ELM 94 124 0 01 Apr 2023
Capabilities of GPT-4 on Medical Challenge Problems Harsha Nori Nicholas King S. McKinney Dean Carignan Eric Horvitz LM&MA ELM AI4MH 159 813 0 20 Mar 2023
What does it take to catch a Chinchilla? Verifying Rules on Large-Scale Neural Network Training via Compute Monitoring Yonadav Shavit 80 23 0 20 Mar 2023
Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback Hannah Rose Kirk Bertie Vidgen Paul Röttger Scott A. Hale 106 107 0 09 Mar 2023
disco: a toolkit for Distributional Control of Generative Models Germán Kruszewski Jos Rozen Marc Dymetman 70 4 0 08 Mar 2023
Perspectives on the Social Impacts of Reinforcement Learning with Human Feedback Gabrielle K. Liu OffRL 116 21 0 06 Mar 2023
Goal Driven Discovery of Distributional Differences via Language Descriptions Ruiqi Zhong Peter Zhang Steve Li Jinwoo Ahn Dan Klein Jacob Steinhardt 118 53 0 28 Feb 2023
Safety without alignment András Kornai M. Bukatin Zsolt Zombori LLMSV 62 0 0 27 Feb 2023
Aligning Text-to-Image Models using Human Feedback Kimin Lee Hao Liu Moonkyung Ryu Olivia Watkins Yuqing Du Craig Boutilier Pieter Abbeel Mohammad Ghavamzadeh S. Gu EGVM 167 286 0 23 Feb 2023
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection Kai Greshake Sahar Abdelnabi Shailesh Mishra C. Endres Thorsten Holz Mario Fritz SILM 197 504 0 23 Feb 2023
Complex QA and language models hybrid architectures, Survey Xavier Daull P. Bellot Emmanuel Bruno Vincent Martin Elisabeth Murisasco ELM 214 16 0 17 Feb 2023
Aligning Language Models with Preferences through f-divergence Minimization Dongyoung Go Tomasz Korbak Germán Kruszewski Jos Rozen Nahyeon Ryu Marc Dymetman 109 76 0 16 Feb 2023
The Capacity for Moral Self-Correction in Large Language Models Deep Ganguli Amanda Askell Nicholas Schiefer Thomas I. Liao Kamil.e Lukovsiut.e ... Tom B. Brown C. Olah Jack Clark Sam Bowman Jared Kaplan LRM ReLM 92 171 0 15 Feb 2023
Transformer models: an introduction and catalog X. Amatriain Ananth Sankar Jie Bing Praveen Kumar Bodigutla Timothy J. Hazen Michaeel Kazi 141 53 0 12 Feb 2023
Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks Daniel Kang Xuechen Li Ion Stoica Carlos Guestrin Matei A. Zaharia Tatsunori Hashimoto AAML 107 253 0 11 Feb 2023
Synthesizing Human Gaze Feedback for Improved NLP Performance Varun Khurana Yaman Kumar Singla Nora Hollenstein R. Kumar Balaji Krishnamurthy 72 17 0 11 Feb 2023
Using In-Context Learning to Improve Dialogue Safety Nicholas Meade Spandana Gella Devamanyu Hazarika Prakhar Gupta Di Jin Siva Reddy Yang Liu Dilek Z. Hakkani-Tür 127 40 0 02 Feb 2023
On The Fragility of Learned Reward Functions Lev McKinney Yawen Duan David M. Krueger Adam Gleave 93 20 0 09 Jan 2023
Inclusive Artificial Intelligence Dilip Arumugam Shi Dong Benjamin Van Roy 74 1 0 24 Dec 2022
Task Ambiguity in Humans and Language Models Alex Tamkin Kunal Handa Ava Shrestha Noah D. Goodman UQLM 124 23 0 20 Dec 2022
Discovering Language Model Behaviors with Model-Written Evaluations Ethan Perez Sam Ringer Kamilė Lukošiūtė Karina Nguyen Edwin Chen ... Danny Hernandez Deep Ganguli Evan Hubinger Nicholas Schiefer Jared Kaplan ALM 107 407 0 19 Dec 2022
Constitutional AI: Harmlessness from AI Feedback Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell John Kernion ... Dario Amodei Nicholas Joseph Sam McCandlish Tom B. Brown Jared Kaplan SyDa MoMe 311 1,651 0 15 Dec 2022
Discovering Latent Knowledge in Language Models Without Supervision Collin Burns Haotian Ye Dan Klein Jacob Steinhardt 166 386 0 07 Dec 2022
Time-Efficient Reward Learning via Visually Assisted Cluster Ranking David Zhang Micah Carroll Andreea Bobu Anca Dragan 70 4 0 30 Nov 2022
Fine-tuning language models to find agreement among humans with diverse preferences Michiel A. Bakker Martin Chadwick Hannah R. Sheahan Michael Henry Tessler Lucy Campbell-Gillingham ... Nat McAleese Amelia Glaese John Aslanides M. Botvinick Christopher Summerfield ALM 110 237 0 28 Nov 2022
HyperTuning: Toward Adapting Large Language Models without Back-propagation Jason Phang Yi Mao Pengcheng He Weizhu Chen 96 34 0 22 Nov 2022
Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback Josh Abramson Arun Ahuja Federico Carnevale Petko Georgiev Alex Goldin ... Tamara von Glehn Greg Wayne Nathaniel Wong Chen Yan Rui Zhu 81 29 0 21 Nov 2022
Measuring Progress on Scalable Oversight for Large Language Models Sam Bowman Jeeyoon Hyun Ethan Perez Edwin Chen Craig Pettit ... Tristan Hume Yuntao Bai Zac Hatfield-Dodds Benjamin Mann Jared Kaplan ALM ELM 113 132 0 04 Nov 2022
Relative Behavioral Attributes: Filling the Gap between Symbolic Goal Specification and Reward Learning from Human Preferences L. Guan Karthik Valmeekam Subbarao Kambhampati 100 8 0 28 Oct 2022
Broken Neural Scaling Laws Ethan Caballero Kshitij Gupta Irina Rish David M. Krueger 153 76 0 26 Oct 2022
Scaling Laws for Reward Model Overoptimization Leo Gao John Schulman Jacob Hilton ALM 134 569 0 19 Oct 2022
Mitigating Covertly Unsafe Text within Natural Language Systems Alex Mei Anisha Kabir Sharon Levy Melanie Subbiah Emily Allaway J. Judge D. Patton Bruce Bimber Kathleen McKeown William Yang Wang 124 13 0 17 Oct 2022
Language Generation Models Can Cause Harm: So What Can We Do About It? An Actionable Survey Sachin Kumar Vidhisha Balachandran Lucille Njoo Antonios Anastasopoulos Yulia Tsvetkov ELM 192 91 0 14 Oct 2022
EleutherAI: Going Beyond "Open Science" to "Science in the Open" Jason Phang Herbie Bradley Leo Gao Louis Castricato Stella Biderman VLM 86 12 0 12 Oct 2022
Mastering Spatial Graph Prediction of Road Networks Sotiris Anagnostidis Aurelien Lucchi Thomas Hofmann GNN 67 1 0 03 Oct 2022
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 326 538 0 28 Sep 2022
Law Informs Code: A Legal Informatics Approach to Aligning Artificial Intelligence with Humans John J. Nay ELM AILaw 190 29 0 14 Sep 2022
Towards Boosting the Open-Domain Chatbot with Human Feedback Hua Lu Siqi Bao H. He Fan Wang Hua Wu Haifeng Wang ALM 69 19 0 30 Aug 2022
The Alignment Problem from a Deep Learning Perspective Richard Ngo Lawrence Chan Sören Mindermann 141 193 0 30 Aug 2022
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned Deep Ganguli Liane Lovitt John Kernion Amanda Askell Yuntao Bai ... Nicholas Joseph Sam McCandlish C. Olah Jared Kaplan Jack Clark 325 489 0 23 Aug 2022
Learning New Skills after Deployment: Improving open-domain internet-driven dialogue with human feedback Jing Xu Megan Ung M. Komeili Kushal Arora Y-Lan Boureau Jason Weston 77 37 0 05 Aug 2022
BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage Kurt Shuster Jing Xu M. Komeili Da Ju Eric Michael Smith ... Naman Goyal Arthur Szlam Y-Lan Boureau Melanie Kambadur Jason Weston LM&Ro KELM 126 243 0 05 Aug 2022
Language Models (Mostly) Know What They Know Saurav Kadavath Tom Conerly Amanda Askell T. Henighan Dawn Drain ... Nicholas Joseph Benjamin Mann Sam McCandlish C. Olah Jared Kaplan ELM 150 836 0 11 Jul 2022
What is Flagged in Uncertainty Quantification? Latent Density Models for Uncertainty Categorization Hao Sun B. V. Breugel Jonathan Crabbé Nabeel Seedat M. Schaar 87 4 0 11 Jul 2022
Forecasting Future World Events with Neural Networks Andy Zou Tristan Xiao Ryan Jia Joe Kwon Mantas Mazeika Richard Li Dawn Song Jacob Steinhardt Owain Evans Dan Hendrycks 110 27 0 30 Jun 2022