Improving Steering Vectors by Targeting Sparse Autoencoder Features

4 November 2024

Papers citing "Improving Steering Vectors by Targeting Sparse Autoencoder Features"

3 / 3 papers shown

Title
Patterns and Mechanisms of Contrastive Activation Engineering Yixiong Hao Ayush Panda Stepan Shabalin Sheikh Abdur Raheem Ali LLMSV 62 0 0 06 May 2025
Tracking the Feature Dynamics in LLM Training: A Mechanistic Study Yang Xu Yixuan Wang Hao Wang 114 1 0 23 Dec 2024
Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models Michael Lan Philip H. S. Torr Austin Meek Ashkan Khakzar David M. Krueger Fazl Barez 43 10 0 09 Oct 2024