Quantifying Association Capabilities of Large Language Models and Its
Implications on Privacy Leakage

v1v2 (latest)

Quantifying Association Capabilities of Large Language Models and Its Implications on Privacy Leakage

22 May 2023

Kevin Chen-Chuan Chang

ArXiv (abs)PDF HTML

Papers citing "Quantifying Association Capabilities of Large Language Models and Its Implications on Privacy Leakage"

16 / 16 papers shown

Title
Undesirable Memorization in Large Language Models: A Survey Ali Satvaty Suzan Verberne Fatih Turkmen ELM PILM 175 7 0 03 Oct 2024
Analyzing Leakage of Personally Identifiable Information in Language Models Nils Lukas A. Salem Robert Sim Shruti Tople Lukas Wutschitz Santiago Zanella Béguelin PILM 124 232 0 01 Feb 2023
Large Language Models Struggle to Learn Long-Tail Knowledge Nikhil Kandpal H. Deng Adam Roberts Eric Wallace Colin Raffel RALM KELM 128 417 0 15 Nov 2022
Can Language Models Be Specific? How? Jie Huang Kevin Chen-Chuan Chang Jinjun Xiong Wen-mei W. Hwu 90 9 0 11 Oct 2022
Textwash -- automated open-source text anonymisation Bennett Kleinberg Toby P Davies Maximilian Mozes 41 13 0 27 Aug 2022
Are Large Pre-Trained Language Models Leaking Your Personal Information? Jie Huang Hanyin Shao Kevin Chen-Chuan Chang PILM 95 200 0 25 May 2022
GPT-NeoX-20B: An Open-Source Autoregressive Language Model Sid Black Stella Biderman Eric Hallahan Quentin G. Anthony Leo Gao ... Shivanshu Purohit Laria Reynolds J. Tow Benqi Wang Samuel Weinbach 180 835 0 14 Apr 2022
PaLM: Scaling Language Modeling with Pathways Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma Gaurav Mishra ... Kathy Meier-Hellstern Douglas Eck J. Dean Slav Petrov Noah Fiedel PILM LRM 529 6,293 0 05 Apr 2022
Quantifying Memorization Across Neural Language Models Nicholas Carlini Daphne Ippolito Matthew Jagielski Katherine Lee Florian Tramèr Chiyuan Zhang PILM 124 631 0 15 Feb 2022
What Does it Mean for a Language Model to Preserve Privacy? Hannah Brown Katherine Lee Fatemehsadat Mireshghallah Reza Shokri Florian Tramèr PILM 92 243 0 11 Feb 2022
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 360 634 0 14 Jul 2021
Does BERT Pretrained on Clinical Notes Reveal Sensitive Data? Eric P. Lehman Sarthak Jain Karl Pichotta Yoav Goldberg Byron C. Wallace OOD MIACV 66 121 0 15 Apr 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 475 2,120 0 31 Dec 2020
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown Basel Alomair Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 509 1,946 0 14 Dec 2020
How Can We Know What Language Models Know? Zhengbao Jiang Frank F. Xu Jun Araki Graham Neubig KELM 144 1,409 0 28 Nov 2019
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 576 2,674 0 03 Sep 2019