What does it take to catch a Chinchilla? Verifying Rules on Large-Scale Neural Network Training via Compute Monitoring

20 March 2023

Papers citing "What does it take to catch a Chinchilla? Verifying Rules on Large-Scale Neural Network Training via Compute Monitoring"

18 / 18 papers shown

Title
What Is AI Safety? What Do We Want It to Be? Jacqueline Harding Cameron Domenico Kirk-Giannini 68 0 0 05 May 2025
Hardware-Enabled Mechanisms for Verifying Responsible AI Development Aidan O'Gara Gabriel Kulp Will Hodgkins James Petrie Vincent Immler Aydin Aysu K. Basu S. Bhasin S. Picek Ankur Srivastava 19 0 0 02 Apr 2025
Lies, Damned Lies, and Distributional Language Statistics: Persuasion and Deception with Large Language Models Cameron R. Jones Benjamin Bergen 67 5 0 22 Dec 2024
Verification methods for international AI agreements Akash R. Wasil Tom Reed Jack William Miller Peter Barnett 37 2 0 28 Aug 2024
Trust AI Regulation? Discerning users are vital to build trust and effective AI regulation Zainab Alalawi Paolo Bova Theodor Cimpeanu A. D. Stefano M. H. Duong ... Han The Anh Marcus Krellner Bianca Ogbo Simon T. Powers Filippo Zimmaro 53 13 0 14 Mar 2024
AI capabilities can be significantly improved without expensive retraining Tom Davidson Jean-Stanislas Denain Pablo Villalobos Guillem Bas OffRL VLM 24 26 0 12 Dec 2023
Towards Responsible Governance of Biological Design Tools Richard Moulange Max Langenkamp Tessa Alexanian Samuel Curtis Morgan Livingston ELM SILM 34 2 0 27 Nov 2023
An International Consortium for Evaluations of Societal-Scale Risks from Advanced AI Ross Gruetzemacher Alan Chan Kevin Frazier Christy Manning Stepán Los ... Clíodhna Ní Ghuidhir Mark M. Bailey Daniel Eth Toby D. Pilditch Kyle A. Kilian 24 5 0 22 Oct 2023
Multinational AGI Consortium (MAGIC): A Proposal for International Coordination on AI Jason Hausenloy Andrea Miotti Claire Dennis 23 1 0 13 Oct 2023
International Governance of Civilian AI: A Jurisdictional Certification Approach Robert F. Trager Benjamin Harack Anka Reuel A. Carnegie Lennart Heim ... R. Lall Owen Larter Seán Ó hÉigeartaigh Simon Staffell José Jaime Villalobos 24 20 0 29 Aug 2023
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper Xander Davies Claudia Shi T. Gilbert Jérémy Scheurer ... Erdem Biyik Anca Dragan David M. Krueger Dorsa Sadigh Dylan Hadfield-Menell ALM OffRL 47 472 0 27 Jul 2023
Tools for Verifying Neural Models' Training Data Dami Choi Yonadav Shavit David Duvenaud MIALM 22 14 0 02 Jul 2023
An Overview of Catastrophic AI Risks Dan Hendrycks Mantas Mazeika Thomas Woodside SILM 26 165 0 21 Jun 2023
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU Ying Sheng Lianmin Zheng Binhang Yuan Zhuohan Li Max Ryabinin ... Joseph E. Gonzalez Percy Liang Christopher Ré Ion Stoica Ce Zhang 149 368 0 13 Mar 2023
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 250 1,073 0 05 Oct 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 367 8,495 0 28 Jan 2022
Unsolved Problems in ML Safety Dan Hendrycks Nicholas Carlini John Schulman Jacob Steinhardt 186 273 0 28 Sep 2021
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 243 4,469 0 23 Jan 2020