Structural Inference: Interpreting Small Language Models with Susceptibilities

22 May 2025

Papers citing "Structural Inference: Interpreting Small Language Models with Susceptibilities"

1 / 1 papers shown

Title
An alignment safety case sketch based on debate Marie Davidsen Buhl Jacob Pfau Benjamin Hilton Geoffrey Irving 38 0 0 06 May 2025