SEAS: Self-Evolving Adversarial Safety Optimization for Large Language
Models

SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models

5 August 2024

Xunliang Cai

ArXiv (abs)PDF HTML

Papers citing "SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models"

3 / 3 papers shown

Title
OJBench: A Competition Level Code Benchmark For Large Language Models Zhexu Wang Y. Liu Yejie Wang Wenyang He Bofei Gao ... Kelin Fu Flood Sung Zhilin Yang Tianyu Liu Weiran Xu ReLM LRM ELM 23 0 0 19 Jun 2025
CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery Xiaoshuai Song Muxi Diao Guanting Dong Zhengyang Wang Yujia Fu ... Yejie Wang Zhuoma Gongque Jianing Yu Qiuna Tan Weiran Xu ELM 171 15 0 12 Jun 2024
SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety Paul Röttger Fabio Pernisi Bertie Vidgen Dirk Hovy ELM KELM 167 39 0 08 Apr 2024