Title
Knowledge Mechanisms in Large Language Models: A Survey and Perspective Meng Wang Yunzhi Yao Ziwen Xu Shuofei Qiao Shumin Deng ... Yong Jiang Pengjun Xie Fei Huang Huajun Chen Ningyu Zhang 136 39 0 22 Jul 2024
When Can Transformers Count to n? Gilad Yehudai Haim Kaplan Asma Ghandeharioun Mor Geva Amir Globerson 100 13 0 21 Jul 2024
InterpBench: Semi-Synthetic Transformers for Evaluating Mechanistic Interpretability Techniques Rohan Gupta Iván Arcuschin Thomas Kwa Adrià Garriga-Alonso 106 5 0 19 Jul 2024
Interpretability in Action: Exploratory Analysis of VPT, a Minecraft Agent Karolis Jucys George Adamopoulos Mehrab Hamidi Stephanie Milani Mohammad Reza Samsami Artem Zholus Sonia Joseph Blake A. Richards Irina Rish Özgür Simsek 80 3 0 16 Jul 2024
LLM Circuit Analyses Are Consistent Across Training and Scale Curt Tigges Michael Hanna Qinan Yu Stella Biderman 105 18 0 15 Jul 2024
Interpretability analysis on a pathology foundation model reveals biologically relevant embeddings across modalities Nhat Dinh Minh Le Ciyue Shen Chintan Shah Blake Martin Daniel Shenker ... Jennifer A. Hipp S. Grullon J. Abel Harsha Pokkalla Dinkar Juyal 46 0 0 15 Jul 2024
Representing Rule-based Chatbots with Transformers Dan Friedman Abhishek Panigrahi Danqi Chen 156 1 0 15 Jul 2024
Fine-grained Analysis of In-context Linear Estimation: Data, Architecture, and Beyond Yingcong Li A. S. Rawat Samet Oymak 69 8 0 13 Jul 2024
Transformer Circuit Faithfulness Metrics are not Robust Joseph Miller Bilal Chughtai William Saunders 104 7 0 11 Jul 2024
Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules Zhuocheng Gong Ang Lv Jian Guan Junxi Yan Wei Wu Huishuai Zhang Minlie Huang Dongyan Zhao Rui Yan MoE 86 7 0 09 Jul 2024
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory Luca Zancato Arjun Seshadri Yonatan Dukler Aditya Golatkar Yantao Shen Benjamin Bowman Matthew Trager Alessandro Achille Stefano Soatto 77 10 0 08 Jul 2024
On the Power of Convolution Augmented Transformer Mingchen Li Xuechen Zhang Yixiao Huang Samet Oymak 75 3 0 08 Jul 2024
Missed Causes and Ambiguous Effects: Counterfactuals Pose Challenges for Interpreting Neural Networks Aaron Mueller CML 77 10 0 05 Jul 2024
Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning Lei Yu Jingcheng Niu Zining Zhu Gerald Penn 79 7 0 04 Jul 2024
Universal Length Generalization with Turing Programs Kaiying Hou David Brandfonbrener Sham Kakade Samy Jelassi Eran Malach 121 11 0 03 Jul 2024
A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models Daking Rai Yilun Zhou Shi Feng Abulhair Saparov Ziyu Yao 190 33 0 02 Jul 2024
SE(3)-Hyena Operator for Scalable Equivariant Learning Artem Moskalev Mangal Prakash Rui Liao Tommaso Mansi 102 2 0 01 Jul 2024
Understanding Transformers via N-gram Statistics Timothy Nguyen 88 10 0 30 Jun 2024
Mixture of In-Context Experts Enhance LLMs' Long Context Awareness Hongzhan Lin Ang Lv Yuhan Chen Chen Zhu Yang Song Hengshu Zhu Rui Yan 72 12 0 28 Jun 2024
The Remarkable Robustness of LLMs: Stages of Inference? Vedang Lad Wes Gurnee Max Tegmark Max Tegmark 115 53 0 27 Jun 2024
Do LLMs dream of elephants (when told not to)? Latent concept association and associative memory in transformers Yibo Jiang Goutham Rajendran Pradeep Ravikumar Bryon Aragam CLL KELM 92 8 0 26 Jun 2024
Confidence Regulation Neurons in Language Models Alessandro Stolfo Ben Wu Wes Gurnee Yonatan Belinkov Xingyi Song Mrinmaya Sachan Neel Nanda 77 20 0 24 Jun 2024
A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning Lijie Hu Liang Liu Shu Yang Xin Chen Hongru Xiao Mengdi Li Pan Zhou Muhammad Asif Ali Di Wang LRM 148 7 0 18 Jun 2024
Transcoders Find Interpretable LLM Feature Circuits Jacob Dunefsky Philippe Chlenski Neel Nanda 85 34 0 17 Jun 2024
Unraveling the Mechanics of Learning-Based Demonstration Selection for In-Context Learning Hui Liu Wenya Wang Hao Sun Chris Xing Tian Chenqi Kong Xin Dong Haoliang Li 78 6 0 14 Jun 2024
Attention as a Hypernetwork Simon Schug Seijin Kobayashi Yassir Akram João Sacramento Razvan Pascanu GNN 83 5 0 09 Jun 2024
BERTs are Generative In-Context Learners David Samuel 85 8 0 07 Jun 2024
What Do Language Models Learn in Context? The Structured Task Hypothesis Jiaoda Li Buse Giledereli Mrinmaya Sachan Ryan Cotterell LRM 95 8 0 06 Jun 2024
Weight-based Decomposition: A Case for Bilinear MLPs Michael T. Pearce Thomas Dooms Alice Rigg 115 1 0 06 Jun 2024
Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller Min Cai Yuchen Zhang Shichang Zhang Fan Yin Difan Zou Yisong Yue Ziniu Hu 83 1 0 04 Jun 2024
Iteration Head: A Mechanistic Study of Chain-of-Thought Vivien A. Cabannes Charles Arnal Wassim Bouaziz Alice Yang Francois Charton Julia Kempe LRM 105 12 0 04 Jun 2024
LoFiT: Localized Fine-tuning on LLM Representations Fangcong Yin Xi Ye Greg Durrett 106 23 0 03 Jun 2024
Position: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience Martina G. Vilas Federico Adolfi David Poeppel Gemma Roig 111 6 0 03 Jun 2024
Standards for Belief Representations in LLMs Daniel A. Herrmann B. Levinstein 99 11 0 31 May 2024
Does learning the right latent variables necessarily improve in-context learning? Sarthak Mittal Eric Elmoznino Léo Gagnon Sangnie Bhardwaj Tom Marty Dhanya Sridhar Guillaume Lajoie 96 7 0 29 May 2024
Knowledge Circuits in Pretrained Transformers Yunzhi Yao Ningyu Zhang Zekun Xi Meng Wang Ziwen Xu Shumin Deng Huajun Chen KELM 180 25 0 28 May 2024
Mechanistic Interpretability of Binary and Ternary Transformers Jason Li MQ 90 0 0 27 May 2024
Survival of the Fittest Representation: A Case Study with Modular Addition Xiaoman Delores Ding Zifan Carl Guo Eric J. Michaud Ziming Liu Max Tegmark 121 4 0 27 May 2024
Exploring and steering the moral compass of Large Language Models Alejandro Tlaie LLMSV 77 3 0 27 May 2024
Disentangling and Integrating Relational and Sensory Information in Transformer Architectures Awni Altabaa John Lafferty 59 3 0 26 May 2024
MoEUT: Mixture-of-Experts Universal Transformers Róbert Csordás Kazuki Irie Jürgen Schmidhuber Christopher Potts Christopher D. Manning MoE 88 11 0 25 May 2024
Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks Jerome Sieber Carmen Amo Alonso A. Didier Melanie Zeilinger Antonio Orvieto AAML 150 9 0 24 May 2024
From Frege to chatGPT: Compositionality in language, cognition, and deep neural networks Jacob Russin Sam Whitman McGrath Danielle J. Williams Lotem Elber-Dorozko AI4CE 189 4 0 24 May 2024
Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification Shang Liu Zhongze Cai Guanting Chen Xiaocheng Li UQCV 67 1 0 24 May 2024
Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models Cong Lu Shengran Hu Jeff Clune LLMAG 119 12 0 24 May 2024
Linking In-context Learning in Transformers to Human Episodic Memory Ji-An Li Corey Y. Zhou M. Benna Marcelo G. Mattar 62 4 0 23 May 2024
How Do Transformers "Do" Physics? Investigating the Simple Harmonic Oscillator Subhash Kantamneni Ziming Liu Max Tegmark 170 2 0 23 May 2024
Automatically Identifying Local and Global Circuits with Linear Computation Graphs Xuyang Ge Fukang Zhu Wentao Shu Junxuan Wang Zhengfu He Xipeng Qiu 96 10 0 22 May 2024
Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models Charles OÑeill Thang Bui 84 7 0 21 May 2024
Asymptotic theory of in-context learning by linear attention Yue M. Lu Mary I. Letey Jacob A. Zavatone-Veth Anindita Maiti Cengiz Pehlevan 96 16 0 20 May 2024