Response Uncertainty and Probe Modeling: Two Sides of the Same Coin in LLM Interpretability?

24 May 2025

Papers citing "Response Uncertainty and Probe Modeling: Two Sides of the Same Coin in LLM Interpretability?"

37 / 37 papers shown

Title
An Axiomatic Assessment of Entropy- and Variance-based Uncertainty Quantification in Regression Christopher Bülte Yusuf Sale Timo Löhr Paul Hofman Gitta Kutyniok Eyke Hüllermeier UD 106 3 0 25 Apr 2025
Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning Julian Minder Clement Dumas Caden Juang Bilal Chugtai Neel Nanda 126 1 0 03 Apr 2025
A Close Look at Decomposition-based XAI-Methods for Transformer Language Models L. Arras Bruno Puri Patrick Kahardipraja Sebastian Lapuschkin Wojciech Samek 66 3 0 21 Feb 2025
From Local to Global: A Graph RAG Approach to Query-Focused Summarization Darren Edge Ha Trinh Newman Cheng Joshua Bradley Alex Chao Apurva Mody Steven Truitt Dasha Metropolitansky Robert Osazuwa Ness Jonathan Larson RALM 206 406 0 20 Feb 2025
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity Yuqi Luo Chenyang Song Xu Han Yuxiao Chen Chaojun Xiao Zhiyuan Liu Maosong Sun 88 5 0 04 Nov 2024
SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain Pierre Colombo T. Pires Malik Boudiaf Rui Melo Dominic Culver Sofia Morgado Etienne Malaboeuf Gabriel Hautreux Johanne Charpentier Michael Desa ELM AILaw ALM 62 17 0 28 Jul 2024
Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs Jannik Kossen Jiatong Han Muhammed Razzak Lisa Schut Shreshth A. Malik Yarin Gal HILM 91 46 0 22 Jun 2024
To Believe or Not to Believe Your LLM Yasin Abbasi-Yadkori Ilja Kuzborskij András György Csaba Szepesvári UQCV 103 53 0 04 Jun 2024
Gradient based Feature Attribution in Explainable AI: A Technical Review Yongjie Wang Tong Zhang Xu Guo Zhiqi Shen XAI 60 22 0 15 Mar 2024
Experts Don't Cheat: Learning What You Don't Know By Predicting Pairs Daniel D. Johnson Daniel Tarlow David Duvenaud Chris J. Maddison 35 9 0 13 Feb 2024
AttnLRP: Attention-Aware Layer-Wise Relevance Propagation for Transformers Reduan Achtibat Sayed Mohammad Vakilzadeh Hatefi Maximilian Dreyer Aakriti Jain Thomas Wiegand Sebastian Lapuschkin Wojciech Samek 54 34 0 08 Feb 2024
(A)I Am Not a Lawyer, But...: Engaging Legal Experts towards Responsible LLM Policies for Legal Advice Inyoung Cheong King Xia K. J. Kevin Feng Quan Ze Chen Amy X. Zhang AILaw ELM 71 66 0 02 Feb 2024
The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction Pratyusha Sharma Jordan T. Ash Dipendra Kumar Misra LRM 38 87 0 21 Dec 2023
Language Models Represent Space and Time Wes Gurnee Max Tegmark 101 156 0 03 Oct 2023
Explainability for Large Language Models: A Survey Haiyan Zhao Hanjie Chen Fan Yang Ninghao Liu Huiqi Deng Hengyi Cai Shuaiqiang Wang Dawei Yin Jundong Li LRM 62 447 0 02 Sep 2023
Emergent Linear Representations in World Models of Self-Supervised Sequence Models Neel Nanda Andrew Lee Martin Wattenberg FAtt MILM 76 177 0 02 Sep 2023
Gaussian Process Probes (GPP) for Uncertainty-Aware Probing Zehao Wang Alexander Ku Jason Baldridge Thomas Griffiths Been Kim UQCV 46 13 0 29 May 2023
Voyager: An Open-Ended Embodied Agent with Large Language Models Guanzhi Wang Yuqi Xie Yunfan Jiang Ajay Mandlekar Chaowei Xiao Yuke Zhu Linxi Fan Anima Anandkumar LM&Ro SyDa 109 807 0 25 May 2023
Tree of Thoughts: Deliberate Problem Solving with Large Language Models Shunyu Yao Dian Yu Jeffrey Zhao Izhak Shafran Thomas Griffiths Yuan Cao Karthik Narasimhan LM&Ro LRM AI4CE 129 1,913 0 17 May 2023
Generative Agents: Interactive Simulacra of Human Behavior J. Park Joseph C. O'Brien Carrie J. Cai Meredith Ringel Morris Percy Liang Michael S. Bernstein LM&Ro AI4CE 369 1,907 0 07 Apr 2023
Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation Lorenz Kuhn Y. Gal Sebastian Farquhar UQLM 163 288 0 19 Feb 2023
Progress measures for grokking via mechanistic interpretability Neel Nanda Lawrence Chan Tom Lieberum Jess Smith Jacob Steinhardt 71 431 0 12 Jan 2023
Discovering Latent Knowledge in Language Models Without Supervision Collin Burns Haotian Ye Dan Klein Jacob Steinhardt 122 363 0 07 Dec 2022
Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task Kenneth Li Aspen K. Hopkins David Bau Fernanda Viégas Hanspeter Pfister Martin Wattenberg MILM 95 287 0 24 Oct 2022
Language Models (Mostly) Know What They Know Saurav Kadavath Tom Conerly Amanda Askell T. Henighan Dawn Drain ... Nicholas Joseph Benjamin Mann Sam McCandlish C. Olah Jared Kaplan ELM 101 802 0 11 Jul 2022
Ensembles for Uncertainty Estimation: Benefits of Prior Functions and Bootstrapping Vikranth Dwaracherla Zheng Wen Ian Osband Xiuyuan Lu S. Asghari Benjamin Van Roy UQCV 71 20 0 08 Jun 2022
Survey of Hallucination in Natural Language Generation Ziwei Ji Nayeon Lee Rita Frieske Tiezheng Yu D. Su ... Delong Chen Wenliang Dai Ho Shu Chan Andrea Madotto Pascale Fung HILM LRM 186 2,356 0 08 Feb 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 738 9,267 0 28 Jan 2022
Can Language Models Encode Perceptual Structure Without Grounding? A Case Study in Color Mostafa Abdou Artur Kulmizev Daniel Hershcovich Stella Frank Ellie Pavlick Anders Søgaard 69 122 0 13 Sep 2021
Probing Classifiers: Promises, Shortcomings, and Advances Yonatan Belinkov 256 440 0 24 Feb 2021
Concept Bottleneck Models Pang Wei Koh Thao Nguyen Y. S. Tang Stephen Mussmann Emma Pierson Been Kim Percy Liang 94 818 0 09 Jul 2020
On Faithfulness and Factuality in Abstractive Summarization Joshua Maynez Shashi Narayan Bernd Bohnet Ryan T. McDonald HILM 77 1,028 0 02 May 2020
On Completeness-aware Concept-Based Explanations in Deep Neural Networks Chih-Kuan Yeh Been Kim Sercan O. Arik Chun-Liang Li Tomas Pfister Pradeep Ravikumar FAtt 201 304 0 17 Oct 2019
Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned Elena Voita David Talbot F. Moiseev Rico Sennrich Ivan Titov 102 1,134 0 23 May 2019
Sanity Checks for Saliency Maps Julius Adebayo Justin Gilmer M. Muelly Ian Goodfellow Moritz Hardt Been Kim FAtt AAML XAI 123 1,963 0 08 Oct 2018
Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV) Been Kim Martin Wattenberg Justin Gilmer Carrie J. Cai James Wexler F. Viégas Rory Sayres FAtt 189 1,834 0 30 Nov 2017
Understanding intermediate layers using linear classifier probes Guillaume Alain Yoshua Bengio FAtt 123 941 0 05 Oct 2016