Crafting Large Language Models for Enhanced Interpretability

5 July 2024

Papers citing "Crafting Large Language Models for Enhanced Interpretability"

6 / 6 papers shown

Title
ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models Chung-En Sun Ge Yan Tsui-Wei Weng KELM LRM 60 0 0 27 Mar 2025
VLG-CBM: Training Concept Bottleneck Models with Vision-Language Guidance Divyansh Srivastava Beatriz Cabrero-Daniel Christian Berger VLM 62 8 0 17 Jan 2025
Concept Bottleneck Language Models For protein design Aya Abdelsalam Ismail Tuomas Oikarinen Amy Wang Julius Adebayo Samuel Stanton ... J. Kleinhenz Allen Goodman H. C. Bravo Kyunghyun Cho Nathan C. Frey 34 4 0 09 Nov 2024
Interacting Large Language Model Agents. Interpretable Models and Social Learning Adit Jain Vikram Krishnamurthy LLMAG 37 0 0 02 Nov 2024
Interpretable Language Modeling via Induction-head Ngram Models Eunji Kim Sriya Mantena Weiwei Yang Chandan Singh Sungroh Yoon Jianfeng Gao 49 0 0 31 Oct 2024
Post-hoc Concept Bottleneck Models Mert Yuksekgonul Maggie Wang James Y. Zou 143 185 0 31 May 2022