From Feature Visualization to Visual Circuits: Effect of Adversarial Model Manipulation

3 June 2024

Papers citing "From Feature Visualization to Visual Circuits: Effect of Adversarial Model Manipulation"

3 / 3 papers shown

Title
Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small Kevin Wang Alexandre Variengien Arthur Conmy Buck Shlegeris Jacob Steinhardt 212 496 0 01 Nov 2022
Natural Language Descriptions of Deep Visual Features Evan Hernandez Sarah Schwettmann David Bau Teona Bagashvili Antonio Torralba Jacob Andreas MILM 201 117 0 26 Jan 2022
Densely Connected Convolutional Networks Gao Huang Zhuang Liu L. V. D. van der Maaten Kilian Q. Weinberger PINN 3DV 261 36,371 0 25 Aug 2016