v1v2v3 (latest)

SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior

22 October 2024

Papers citing "SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior"

1 / 1 papers shown

Title
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Tinghao Xie Xiangyu Qi Yi Zeng Yangsibo Huang Udari Madhushani Sehwag ... Bo Li Kai Li Danqi Chen Peter Henderson Prateek Mittal ALM ELM 178 79 0 20 Jun 2024