DarkBench: Benchmarking Dark Patterns in Large Language Models

13 March 2025

Papers citing "DarkBench: Benchmarking Dark Patterns in Large Language Models"

1 / 1 papers shown

Title
Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems Simon Lermen Mateusz Dziemian Natalia Pérez-Campanero Antolín 31 0 0 10 Apr 2025