Tracking the Feature Dynamics in LLM Training: A Mechanistic Study

v1v2v3 (latest)

Tracking the Feature Dynamics in LLM Training: A Mechanistic Study

23 December 2024

ArXiv (abs)PDF HTML

Papers citing "Tracking the Feature Dynamics in LLM Training: A Mechanistic Study"

4 / 4 papers shown

Title
Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety Seongmin Lee Aeree Cho Grace C. Kim ShengYun Peng Mansi Phute Duen Horng Chau LM&MA AI4CE 84 0 0 05 Jun 2025
The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models Shashata Sawmya Micah Adler Nir Shavit MILM 35 0 0 26 May 2025
DB-KSVD: Scalable Alternating Optimization for Disentangling High-Dimensional Embedding Spaces Romeo Valentin Sydney M. Katz Vincent Vanhoucke Mykel J. Kochenderfer 66 0 0 24 May 2025
How LLMs Learn: Tracing Internal Representations with Sparse Autoencoders Tatsuro Inaba Kentaro Inui Yusuke Miyao Yohei Oseki Benjamin Heinzerling Yu Takagi 104 1 0 09 Mar 2025