Mechanistic Interpretability of GPT-like Models on Summarization Tasks

20 May 2025

Papers citing "Mechanistic Interpretability of GPT-like Models on Summarization Tasks"

6 / 6 papers shown

Title
Rope to Nope and Back Again: A New Hybrid Attention Strategy Bowen Yang Bharat Venkitesh Dwarak Talupuru Hangyu Lin David Cairuz Phil Blunsom Acyr Locatelli 167 6 0 30 Jan 2025
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 490 10,496 0 17 Jun 2021
RoFormer: Enhanced Transformer with Rotary Position Embedding Jianlin Su Yu Lu Shengfeng Pan Ahmed Murtadha Bo Wen Yunfeng Liu 284 2,521 0 20 Apr 2021
What Does BERT Look At? An Analysis of BERT's Attention Kevin Clark Urvashi Khandelwal Omer Levy Christopher D. Manning MILM 223 1,602 0 11 Jun 2019
Attention is not Explanation Sarthak Jain Byron C. Wallace FAtt 148 1,328 0 26 Feb 2019
Teaching Machines to Read and Comprehend Karl Moritz Hermann Tomás Kociský Edward Grefenstette L. Espeholt W. Kay Mustafa Suleyman Phil Blunsom 349 3,552 0 10 Jun 2015