CausalGym: Benchmarking causal interpretability methods on linguistic tasks

19 February 2024

Papers citing "CausalGym: Benchmarking causal interpretability methods on linguistic tasks"

11 / 11 papers shown

Title
Language models align with human judgments on key grammatical constructions Jennifer Hu Kyle Mahowald G. Lupyan Anna A. Ivanova Roger Levy 57 27 0 19 Jan 2024
A Geometric Notion of Causal Probing Clément Guerner Anej Svete Tianyu Liu Alex Warstadt Ryan Cotterell LLMSV 60 12 0 27 Jul 2023
LEACE: Perfect linear concept erasure in closed form Nora Belrose David Schneider-Joseph Shauli Ravfogel Ryan Cotterell Edward Raff Stella Biderman KELM MU 58 107 0 06 Jun 2023
Naturalistic Causal Probing for Morpho-Syntax Afra Amini Tiago Pimentel Clara Meister Ryan Cotterell MILM 116 19 0 14 May 2022
Locating and Editing Factual Associations in GPT Kevin Meng David Bau A. Andonian Yonatan Belinkov KELM 160 1,308 0 10 Feb 2022
Probing Classifiers: Promises, Shortcomings, and Advances Yonatan Belinkov 236 427 0 24 Feb 2021
A Systematic Assessment of Syntactic Generalization in Neural Language Models Jennifer Hu Jon Gauthier Peng Qian Ethan Gotlieb Wilcox R. Levy ELM 69 215 0 07 May 2020
Neural Language Models as Psycholinguistic Subjects: Representations of Syntactic State Richard Futrell Ethan Gotlieb Wilcox Takashi Morita Peng Qian Miguel Ballesteros R. Levy MILM 116 193 0 08 Mar 2019
Targeted Syntactic Evaluation of Language Models Rebecca Marvin Tal Linzen 67 414 0 27 Aug 2018
Colorless green recurrent networks dream hierarchically Kristina Gulordava Piotr Bojanowski Edouard Grave Tal Linzen Marco Baroni 69 504 0 29 Mar 2018
SAGA: A Fast Incremental Gradient Method With Support for Non-Strongly Convex Composite Objectives Aaron Defazio Francis R. Bach Simon Lacoste-Julien ODL 110 1,817 0 01 Jul 2014