Deduplicating Training Data Mitigates Privacy Risks in Language Models

14 February 2022

Papers citing "Deduplicating Training Data Mitigates Privacy Risks in Language Models"

50 / 212 papers shown

Title
ROME: Memorization Insights from Text, Logits and Representation Bo Li Qing Xia Zhao Lijie Wen 25 2 0 01 Mar 2024
Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems Zhenting Qi Hanlin Zhang Eric Xing Sham Kakade Hima Lakkaraju SILM 44 18 0 27 Feb 2024
The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG) Shenglai Zeng Jiankun Zhang Pengfei He Yue Xing Yiding Liu ... Jie Ren Shuaiqiang Wang Dawei Yin Yi Chang Jiliang Tang SILM 35 67 0 23 Feb 2024
Privacy-Preserving Instructions for Aligning Large Language Models Da Yu Peter Kairouz Sewoong Oh Zheng Xu 34 17 0 21 Feb 2024
Proving membership in LLM pretraining data via data watermarks Johnny Tian-Zheng Wei Ryan Yixiang Wang Robin Jia WaLM 24 22 0 16 Feb 2024
Copyright Traps for Large Language Models Matthieu Meeus Igor Shilov Manuel Faysse Yves-Alexandre de Montjoye 36 18 0 14 Feb 2024
Do Membership Inference Attacks Work on Large Language Models? Michael Duan Anshuman Suri Niloofar Mireshghallah Sewon Min Weijia Shi Luke Zettlemoyer Yulia Tsvetkov Yejin Choi David E. Evans Hanna Hajishirzi MIALM 42 79 0 12 Feb 2024
Mitigating Privacy Risk in Membership Inference by Convex-Concave Loss Zhenlong Liu Lei Feng Huiping Zhuang Xiaofeng Cao Hongxin Wei 26 2 0 08 Feb 2024
Copyright Protection in Generative AI: A Technical Perspective Jie Ren Han Xu Pengfei He Yingqian Cui Shenglai Zeng ... Hongzhi Wen Jiayuan Ding Hui Liu Yi Chang Jiliang Tang DeLMO 28 31 0 04 Feb 2024
On Catastrophic Inheritance of Large Foundation Models Hao Chen Bhiksha Raj Xing Xie Jindong Wang AI4CE 56 12 0 02 Feb 2024
Security and Privacy Challenges of Large Language Models: A Survey B. Das M. H. Amini Yanzhao Wu PILM ELM 19 103 0 30 Jan 2024
Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models Yunhong He Jianling Qiu Wei Zhang Zhe Yuan 27 3 0 27 Jan 2024
Do LLMs Dream of Ontologies? Marco Bombieri Paolo Fiorini Simone Paolo Ponzetto M. Rospocher CLL 24 2 0 26 Jan 2024
Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems Tianyu Cui Yanling Wang Chuanpu Fu Yong Xiao Sijia Li ... Junwu Xiong Xinyu Kong Zujie Wen Ke Xu Qi Li 57 56 0 11 Jan 2024
Data-Centric Foundation Models in Computational Healthcare: A Survey Yunkun Zhang Jin Gao Zheling Tan Lingfeng Zhou Kexin Ding Mu Zhou Shaoting Zhang Dequan Wang AI4CE 37 22 0 04 Jan 2024
Traces of Memorisation in Large Language Models for Code Ali Al-Kaswan M. Izadi A. van Deursen ELM 31 14 0 18 Dec 2023
A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models Aysan Esmradi Daniel Wankit Yip C. Chan AAML 38 11 0 18 Dec 2023
SoK: Unintended Interactions among Machine Learning Defenses and Risks Vasisht Duddu S. Szyller Nadarajah Asokan AAML 47 2 0 07 Dec 2023
Understanding (Un)Intended Memorization in Text-to-Image Generative Models Ali Naseh Jaechul Roh Amir Houmansadr DiffM 25 6 0 06 Dec 2023
A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly Yifan Yao Jinhao Duan Kaidi Xu Yuanfang Cai Eric Sun Yue Zhang PILM ELM 39 475 0 04 Dec 2023
RETSim: Resilient and Efficient Text Similarity Marina Zhang Owen Vallis Aysegul Bumin Tanay Vakharia Elie Bursztein 28 1 0 28 Nov 2023
Rethinking Privacy in Machine Learning Pipelines from an Information Flow Control Perspective Lukas Wutschitz Boris Köpf Andrew J. Paverd Saravan Rajmohan Ahmed Salem Shruti Tople Santiago Zanella Béguelin Menglin Xia Victor Rühle 44 13 0 27 Nov 2023
Moderating Model Marketplaces: Platform Governance Puzzles for AI Intermediaries Robert Gorwa Michael Veale 11 10 0 21 Nov 2023
Leveraging Large Language Models for Collective Decision-Making Marios Papachristou Longqi Yang Chin-Chia Hsu LLMAG 39 2 0 03 Nov 2023
Skywork: A More Open Bilingual Foundation Model Tianwen Wei Liang Zhao Lichang Zhang Bo Zhu Lijie Wang ... Yongyi Peng Xiaojuan Liang Shuicheng Yan Han Fang Yahui Zhou 27 93 0 30 Oct 2023
Proving Test Set Contamination in Black Box Language Models Yonatan Oren Nicole Meister Niladri Chatterji Faisal Ladhak Tatsunori B. Hashimoto HILM 30 130 0 26 Oct 2023
Detecting Pretraining Data from Large Language Models Weijia Shi Anirudh Ajith Mengzhou Xia Yangsibo Huang Daogao Liu Terra Blevins Danqi Chen Luke Zettlemoyer MIALM 30 162 0 25 Oct 2023
SoK: Memorization in General-Purpose Large Language Models Valentin Hartmann Anshuman Suri Vincent Bindschaedler David E. Evans Shruti Tople Robert West KELM LLMAG 18 20 0 24 Oct 2023
Did the Neurons Read your Book? Document-level Membership Inference for Large Language Models Matthieu Meeus Shubham Jain Marek Rei Yves-Alexandre de Montjoye MIALM 26 29 0 23 Oct 2023
MoPe: Model Perturbation-based Privacy Attacks on Language Models Marvin Li Jason Wang Jeffrey G. Wang Seth Neel AAML 35 18 0 22 Oct 2023
Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework Imdad Ullah Najm Hassan S. Gill Basem Suleiman T. Ahanger Zawar Shah Junaid Qadir S. Kanhere 40 16 0 19 Oct 2023
Data Contamination Through the Lens of Time Manley Roberts Himanshu Thakur Christine Herlihy Colin White Samuel Dooley 84 31 0 16 Oct 2023
Generation or Replication: Auscultating Audio Latent Diffusion Models Dimitrios Bralios G. Wichern François Germain Zexu Pan Sameer Khurana Chiori Hori Jonathan Le Roux DiffM 19 6 0 16 Oct 2023
User Inference Attacks on Large Language Models Nikhil Kandpal Krishna Pillutla Alina Oprea Peter Kairouz Christopher A. Choquette-Choo Zheng Xu SILM AAML 41 15 0 13 Oct 2023
Impact of Co-occurrence on Factual Knowledge of Large Language Models Cheongwoong Kang Jaesik Choi KELM 23 17 0 12 Oct 2023
Exploring Memorization in Fine-tuned Language Models Shenglai Zeng Yaxin Li Jie Ren Yiding Liu Han Xu Pengfei He Yue Xing Shuaiqiang Wang Jiliang Tang Dawei Yin PILM 41 23 0 10 Oct 2023
Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey Victoria Smith Ali Shahin Shamsabadi Carolyn Ashurst Adrian Weller PILM 32 24 0 27 Sep 2023
"It's a Fair Game", or Is It? Examining How Users Navigate Disclosure Risks and Benefits When Using LLM-Based Conversational Agents Zhiping Zhang Michelle Jia Hao-Ping Lee Bingsheng Yao Sauvik Das Ada Lerner Dakuo Wang Tianshi Li SILM ELM 24 70 0 20 Sep 2023
Security and Privacy on Generative Data in AIGC: A Survey Tao Wang Yushu Zhang Shuren Qi Ruoyu Zhao Zhihua Xia Jian Weng 56 44 0 18 Sep 2023
Client-side Gradient Inversion Against Federated Learning from Poisoning Jiaheng Wei Yanjun Zhang Leo Yu Zhang Chao Chen Shirui Pan Kok-Leong Ong Jinchao Zhang Yang Xiang AAML 25 3 0 14 Sep 2023
Privacy Side Channels in Machine Learning Systems Edoardo Debenedetti Giorgio Severi Nicholas Carlini Christopher A. Choquette-Choo Matthew Jagielski Milad Nasr Eric Wallace Florian Tramèr MIALM 43 38 0 11 Sep 2023
Data-Juicer: A One-Stop Data Processing System for Large Language Models Daoyuan Chen Yilun Huang Zhijian Ma Hesen Chen Xuchen Pan ... Zhaoyang Liu Jinyang Gao Yaliang Li Bolin Ding Jingren Zhou SyDa VLM 23 29 0 05 Sep 2023
Quantifying and Analyzing Entity-level Memorization in Large Language Models Zhenhong Zhou Jiuyang Xiang Chao-Yi Chen Sen Su PILM 38 8 0 30 Aug 2023
Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities Maximilian Mozes Xuanli He Bennett Kleinberg Lewis D. Griffin 39 78 0 24 Aug 2023
Time Travel in LLMs: Tracing Data Contamination in Large Language Models Shahriar Golchin Mihai Surdeanu 33 92 0 16 Aug 2023
SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore Sewon Min Suchin Gururangan Eric Wallace Hannaneh Hajishirzi Noah A. Smith Luke Zettlemoyer AILaw 22 63 0 08 Aug 2023
Generative Models as a Complex Systems Science: How can we make sense of large language model behavior? Ari Holtzman Peter West Luke Zettlemoyer AI4CE 30 14 0 31 Jul 2023
On the Trustworthiness Landscape of State-of-the-art Generative Models: A Survey and Outlook Mingyuan Fan Chengyu Wang Cen Chen Yang Liu Jun Huang HILM 36 3 0 31 Jul 2023
What can we learn from Data Leakage and Unlearning for Law? Jaydeep Borkar PILM MU 38 10 0 19 Jul 2023
Deduplicating and Ranking Solution Programs for Suggesting Reference Solutions Atsushi Shirafuji Yutaka Watanobe 24 1 0 16 Jul 2023