v1v2v3 (latest)

Societal Adaptation to Advanced AI

16 May 2024

Papers citing "Societal Adaptation to Advanced AI"

25 / 25 papers shown

Title
The Role of Governments in Increasing Interconnected Post-Deployment Monitoring of AI Merlin Stein Jamie Bernardi Connor Dunlop 64 6 0 07 Oct 2024
Adapting cybersecurity frameworks to manage frontier AI risks: A defense-in-depth approach Shaun Ee Joe O'Brien Zoe Williams Amanda El-Dakhakhni Michael Aird Alex Lintz 29 8 0 15 Aug 2024
People cannot distinguish GPT-4 from a human in a Turing test Cameron R. Jones Benjamin K. Bergen ELM DeLMO 77 33 0 09 May 2024
WildChat: 1M ChatGPT Interaction Logs in the Wild Wenting Zhao Xiang Ren Jack Hessel Claire Cardie Yejin Choi Yuntian Deng 79 227 0 02 May 2024
LLM Agents can Autonomously Exploit One-day Vulnerabilities Richard Fang R. Bindu Akul Gupta Daniel Kang SILM LLMAG 122 66 0 11 Apr 2024
Responsible Reporting for Frontier AI Development Noam Kolt Markus Anderljung Joslyn Barnhart Asher Brass K. Esvelt Gillian K. Hadfield Lennart Heim Mikel Rodriguez Jonas B. Sandbrink Thomas Woodside 87 14 0 03 Apr 2024
Safety Cases: How to Justify the Safety of Advanced AI Systems Joshua Clymer Nick Gabrieli David Krueger Thomas Larsen 70 33 0 15 Mar 2024
On the Societal Impact of Open Foundation Models Sayash Kapoor Rishi Bommasani Kevin Klyman Shayne Longpre Ashwin Ramaswami ... Victor Storchan Daniel Zhang Daniel E. Ho Percy Liang Arvind Narayanan 74 58 0 27 Feb 2024
Visibility into AI Agents Alan Chan Carson Ezell Max Kaufmann K. Wei Lewis Hammond ... Nitarshan Rajkumar David M. Krueger Noam Kolt Lennart Heim Markus Anderljung 60 40 0 23 Jan 2024
Escalation Risks from Language Models in Military and Diplomatic Decision-Making Juan-Pablo Rivera Gabriel Mukobi Anka Reuel Max Lamparth Chandler Smith Jacquelyn G. Schneider 50 38 0 07 Jan 2024
Towards Publicly Accountable Frontier LLMs: Building an External Scrutiny Ecosystem under the ASPIRE Framework Markus Anderljung Everett Thornton Smith Joe O'Brien Lisa Soder Ben Bucknall Emma Bluemke Jonas Schuett Robert F. Trager Lacey Strahm Rumman Chowdhury 79 18 0 15 Nov 2023
BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B Pranav M. Gade Simon Lermen Charlie Rogers-Smith Jeffrey Ladish ALM AI4MH 66 26 0 31 Oct 2023
Sociotechnical Safety Evaluation of Generative AI Systems Laura Weidinger Maribeth Rauh Nahema Marchal Arianna Manzini Lisa Anne Hendricks ... Conor Griffin Ben Bariach Iason Gabriel Verena Rieser William S. Isaac EGVM 47 139 0 18 Oct 2023
Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models Xianjun Yang Xiao Wang Qi Zhang Linda R. Petzold William Y. Wang Xun Zhao Dahua Lin 69 187 0 04 Oct 2023
Frontier AI Regulation: Managing Emerging Risks to Public Safety Markus Anderljung Joslyn Barnhart Anton Korinek Jade Leung Cullen O'Keefe ... Jonas Schuett Yonadav Shavit Divya Siddarth Robert F. Trager Kevin J. Wolf SILM 83 124 0 06 Jul 2023
An Overview of Catastrophic AI Risks Dan Hendrycks Mantas Mazeika Thomas Woodside SILM 65 181 0 21 Jun 2023
Protecting Society from AI Misuse: When are Restrictions on Capabilities Warranted? Markus Anderljung Julian Hazell 55 31 0 16 Mar 2023
The Gradient of Generative AI Release: Methods and Considerations Irene Solaiman 61 102 0 05 Feb 2023
Measuring Progress on Scalable Oversight for Large Language Models Sam Bowman Jeeyoon Hyun Ethan Perez Edwin Chen Craig Pettit ... Tristan Hume Yuntao Bai Zac Hatfield-Dodds Benjamin Mann Jared Kaplan ALM ELM 72 129 0 04 Nov 2022
Is Power-Seeking AI an Existential Risk? Joseph Carlsmith ELM 62 87 0 16 Jun 2022
Structured access: an emerging paradigm for safe AI deployment Toby Shevlane 46 49 0 13 Jan 2022
AI and Shared Prosperity Katya Klinova Anton Korinek 17 28 0 18 May 2021
Deep Neural Network Fingerprinting by Conferrable Adversarial Examples Nils Lukas Yuxuan Zhang Florian Kerschbaum MLAU FedML AAML 64 145 0 02 Dec 2019
Model Cards for Model Reporting Margaret Mitchell Simone Wu Andrew Zaldivar Parker Barnes Lucy Vasserman Ben Hutchinson Elena Spitzer Inioluwa Deborah Raji Timnit Gebru 127 1,895 0 05 Oct 2018
Datasheets for Datasets Timnit Gebru Jamie Morgenstern Briana Vecchione Jennifer Wortman Vaughan Hanna M. Wallach Hal Daumé Kate Crawford 264 2,184 0 23 Mar 2018