Using Captum to Explain Generative Language Models

9 December 2023

Papers citing "Using Captum to Explain Generative Language Models"

20 / 20 papers shown

Title
"Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs Darpan Aswal Siddharth D Jaiswal AAML 7 0 0 20 May 2025
Document Attribution: Examining Citation Relationships using Large Language Models Vipula Rawte Ryan Rossi Franck Dernoncourt Nedim Lipka HILM 38 0 0 09 May 2025
SPES: Spectrogram Perturbation for Explainable Speech-to-Text Generation Dennis Fucci Marco Gaido Beatrice Savoldi Matteo Negri Mauro Cettolo L. Bentivogli 57 1 0 03 Nov 2024
Local Explanations and Self-Explanations for Assessing Faithfulness in black-box LLMs Christos Fragkathoulas Odysseas S. Chlapanis LRM 25 0 0 18 Sep 2024
Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models Sepehr Kamahi Yadollah Yaghoobzadeh 53 0 0 21 Aug 2024
Effective Large Language Model Debugging with Best-first Tree Search Jialin Song Jonathan Raiman Bryan Catanzaro LRM 51 0 0 26 Jul 2024
CLEAR: Can Language Models Really Understand Causal Graphs? Sirui Chen Mengying Xu Kun Wang Xingyu Zeng Rui Zhao Shengjie Zhao Chaochao Lu LRM ELM 40 8 0 24 Jun 2024
XPrompt:Explaining Large Language Model's Generation via Joint Prompt Attribution Yurui Chang Bochuan Cao Yujia Wang Jinghui Chen Lu Lin LRM 32 0 0 30 May 2024
Selective Explanations Lucas Monteiro Paes Dennis L. Wei Flavio du Pin Calmon FAtt 38 0 0 29 May 2024
Interactive Prompt Debugging with Sequence Salience Ian Tenney Ryan Mullins Bin Du Shree Pandya Minsuk Kahng Lucas Dixon LRM 40 1 0 11 Apr 2024
LM Transparency Tool: Interactive Tool for Analyzing Transformer Language Models Igor Tufanov Karen Hambardzumyan Javier Ferrando Elena Voita KELM 40 6 0 10 Apr 2024
Multi-Level Explanations for Generative Language Models Lucas Monteiro Paes Dennis L. Wei Hyo Jin Do Hendrik Strobelt Ronny Luss ... Manish Nagireddy Karthikeyan N. Ramamurthy P. Sattigeri Werner Geyer Soumya Ghosh FAtt 62 8 0 21 Mar 2024
DUE: Dynamic Uncertainty-Aware Explanation Supervision via 3D Imputation Qilong Zhao Yifei Zhang Mengdan Zhu Siyi Gu Yuyang Gao Xiaofeng Yang Liang Zhao MedIm 38 2 0 16 Mar 2024
Backward Lens: Projecting Language Model Gradients into the Vocabulary Space Shahar Katz Yonatan Belinkov Mor Geva Lior Wolf 63 10 1 20 Feb 2024
Self-AMPLIFY: Improving Small Language Models with Self Post Hoc Explanations Milan Bhan Jean-Noel Vittaut Nicolas Chesneau Marie-Jeanne Lesot ReLM LRM 40 3 0 19 Feb 2024
SyntaxShap: Syntax-aware Explainability Method for Text Generation Kenza Amara Rita Sevastjanova Mennatallah El-Assady 44 2 0 14 Feb 2024
AttnLRP: Attention-Aware Layer-Wise Relevance Propagation for Transformers Reduan Achtibat Sayed Mohammad Vakilzadeh Hatefi Maximilian Dreyer Aakriti Jain Thomas Wiegand Sebastian Lapuschkin Wojciech Samek 36 25 0 08 Feb 2024
Learning to Understand: Identifying Interactions via the Möbius Transform J. S. Kang Yigit Efe Erginbas Landon Butler Ramtin Pedarsani Kannan Ramchandran 27 3 0 04 Feb 2024
InterroLang: Exploring NLP Models and Datasets through Dialogue-based Explanations Nils Feldhus Qianli Wang Tatiana Anikina Sahil Chopra Cennet Oguz Sebastian Möller 40 11 0 09 Oct 2023
Data Augmentation for Neural NLP Domagoj Pluscec Jan Snajder 26 6 0 22 Feb 2023