Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning

24 December 2024

Papers citing "Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning"

2 / 2 papers shown

Title
When Testing AI Tests Us: Safeguarding Mental Health on the Digital Frontlines Sachin R. Pendse Darren Gergle Rachel Kornfield J. Meyerhoff David C. Mohr Jina Suh Annie Wescott Casey Williams J. Schleider 39 0 0 29 Apr 2025
Jailbreaking to Jailbreak Jeremy Kritz Vaughn Robinson Robert Vacareanu Bijan Varjavand Michael Choi Bobby Gogov Scale Red Team Summer Yue Willow Primack Zifan Wang 258 2 0 09 Feb 2025