Demystifying Verbatim Memorization in Large Language Models

Demystifying Verbatim Memorization in Large Language Models

25 July 2024

Diyi Yang

Christopher Potts

Papers citing "Demystifying Verbatim Memorization in Large Language Models"

9 / 9 papers shown

Title
Not All Data Are Unlearned Equally Aravind Krishnan Siva Reddy Marius Mosbach MU 148 1 0 07 Apr 2025
Privacy Ripple Effects from Adding or Removing Personal Information in Language Model Training Jaydeep Borkar Matthew Jagielski Katherine Lee Niloofar Mireshghallah David A. Smith Christopher A. Choquette-Choo PILM 83 1 0 24 Feb 2025
How Much Can We Forget about Data Contamination? Sebastian Bordt Suraj Srinivas Valentyn Boreiko U. V. Luxburg 45 1 0 04 Oct 2024
Position: LLM Unlearning Benchmarks are Weak Measures of Progress Pratiksha Thaker Shengyuan Hu Neil Kale Yash Maurya Zhiwei Steven Wu Virginia Smith MU 53 10 0 03 Oct 2024
Undesirable Memorization in Large Language Models: A Survey Ali Satvaty Suzan Verberne Fatih Turkmen ELM PILM 74 7 0 03 Oct 2024
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs Aly M. Kassem Omar Mahmoud Niloofar Mireshghallah Hyunwoo J. Kim Yulia Tsvetkov Yejin Choi Sherif Saad Santu Rana 50 18 0 05 Mar 2024
Data Portraits: Recording Foundation Model Training Data Marc Marone Benjamin Van Durme 143 30 0 06 Mar 2023
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 253 1,989 0 31 Dec 2020
When is Memorization of Irrelevant Training Data Necessary for High-Accuracy Learning? Gavin Brown Mark Bun Vitaly Feldman Adam D. Smith Kunal Talwar 253 93 0 11 Dec 2020