Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems

27 February 2024

Zhenting Qi

Papers citing "Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems"

25 / 25 papers shown

Title
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data Shenglai Zeng Jiankun Zhang Pengfei He J. Ren Tianqi Zheng Hanqing Lu Han Xu Hui Liu Yue Xing Jiliang Tang 160 12 0 21 Feb 2025
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models Jingwei Yi Yueqi Xie Bin Zhu Emre Kiciman Guangzhong Sun Xing Xie Fangzhao Wu AAML 76 72 0 28 Jan 2025
Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors Yuefeng Peng Junda Wang Hong-ye Yu Amir Houmansadr SILM 79 3 0 03 Nov 2024
Mask-based Membership Inference Attacks for Retrieval-Augmented Generation Mingrui Liu Sixiao Zhang Cheng Long AAML 85 3 0 26 Oct 2024
Eliminating Position Bias of Language Models: A Mechanistic Approach Ziqi Wang Hanlin Zhang Xiner Li Kuan-Hao Huang Chi Han Shuiwang Ji Sham Kakade Hao Peng Heng Ji 90 15 0 01 Jul 2024
Mixtral of Experts Albert Q. Jiang Alexandre Sablayrolles Antoine Roux A. Mensch Blanche Savary ... Théophile Gervet Thibaut Lavril Thomas Wang Timothée Lacroix William El Sayed MoE LLMAG 88 1,049 0 08 Jan 2024
Assessing Prompt Injection Risks in 200+ Custom GPTs Jiahao Yu Yuhang Wu Dong Shu Mingyu Jin Sabrina Yang Xinyu Xing 47 57 0 20 Nov 2023
What's In My Big Data? Yanai Elazar Akshita Bhagia Ian H. Magnusson Abhilasha Ravichander Dustin Schwenk ... Luca Soldaini Sameer Singh Hanna Hajishirzi Noah A. Smith Jesse Dodge 22 93 0 31 Oct 2023
Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models Boyu Zhang Hongyang Yang Tianyu Zhou Muhammad Ali Babar Xiao-Yang Liu AIFin 68 111 0 06 Oct 2023
Qwen Technical Report Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang ... Zhenru Zhang Chang Zhou Jingren Zhou Xiaohuan Zhou Tianhang Zhu OSLM 157 1,756 0 28 Sep 2023
ExpeL: LLM Agents Are Experiential Learners Andrew Zhao Daniel Huang Quentin Xu Matthieu Lin Yang Liu Gao Huang LLMAG 74 208 0 20 Aug 2023
SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore Sewon Min Suchin Gururangan Eric Wallace Hannaneh Hajishirzi Noah A. Smith Luke Zettlemoyer AILaw 61 66 0 08 Aug 2023
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection Kai Greshake Sahar Abdelnabi Shailesh Mishra C. Endres Thorsten Holz Mario Fritz SILM 92 462 0 23 Feb 2023
Analyzing Leakage of Personally Identifiable Information in Language Models Nils Lukas A. Salem Robert Sim Shruti Tople Lukas Wutschitz Santiago Zanella Béguelin PILM 83 218 0 01 Feb 2023
REPLUG: Retrieval-Augmented Black-Box Language Models Weijia Shi Sewon Min Michihiro Yasunaga Minjoon Seo Rich James M. Lewis Luke Zettlemoyer Wen-tau Yih RALM VLM KELM 109 611 0 30 Jan 2023
Evaluating the Susceptibility of Pre-Trained Language Models via Handcrafted Adversarial Examples Hezekiah J. Branch Jonathan Rodriguez Cefalu Jeremy McHugh Leyla Hujer Aditya Bahl Daniel del Castillo Iglesias Ron Heichman Ramesh Darwishi ELM SILM AAML 22 51 0 05 Sep 2022
Teaching language models to support answers with verified quotes Jacob Menick Maja Trebacz Vladimir Mikulik John Aslanides Francis Song ... Mia Glaese Susannah Young Lucy Campbell-Gillingham G. Irving Nat McAleese ELM RALM 270 262 0 21 Mar 2022
Improving language models by retrieving from trillions of tokens Sebastian Borgeaud A. Mensch Jordan Hoffmann Trevor Cai Eliza Rutherford ... Simon Osindero Karen Simonyan Jack W. Rae Erich Elsen Laurent Sifre KELM RALM 160 1,069 0 08 Dec 2021
Differentially Private Fine-tuning of Language Models Da Yu Saurabh Naik A. Backurs Sivakanth Gopi Huseyin A. Inan ... Y. Lee Andre Manoel Lukas Wutschitz Sergey Yekhanin Huishuai Zhang 180 356 0 13 Oct 2021
RoFormer: Enhanced Transformer with Rotary Position Embedding Jianlin Su Yu Lu Shengfeng Pan Ahmed Murtadha Bo Wen Yunfeng Liu 139 2,307 0 20 Apr 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 406 1,868 0 14 Dec 2020
How Much Knowledge Can You Pack Into the Parameters of a Language Model? Adam Roberts Colin Raffel Noam M. Shazeer KELM 69 886 0 10 Feb 2020
REALM: Retrieval-Augmented Language Model Pre-Training Kelvin Guu Kenton Lee Zora Tung Panupong Pasupat Ming-Wei Chang RALM 93 2,050 0 10 Feb 2020
Generalization through Memorization: Nearest Neighbor Language Models Urvashi Khandelwal Omer Levy Dan Jurafsky Luke Zettlemoyer M. Lewis RALM 128 837 0 01 Nov 2019
Differential Privacy Has Disparate Impact on Model Accuracy Eugene Bagdasaryan Vitaly Shmatikov 81 474 0 28 May 2019