Title
Bridging Today and the Future of Humanity: AI Safety in 2024 and Beyond Shanshan Han 159 1 0 09 Oct 2024
PLeak: Prompt Leaking Attacks against Large Language Model Applications Bo Hui Haolin Yuan Neil Zhenqiang Gong Philippe Burlina Yinzhi Cao AAML LLMAG SILM 126 45 0 10 May 2024
Teach LLMs to Phish: Stealing Private Information from Language Models Ashwinee Panda Christopher A. Choquette-Choo Zhengming Zhang Yaoqing Yang Prateek Mittal PILM 106 26 0 01 Mar 2024
Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou Zifan Wang Nicholas Carlini Milad Nasr J. Zico Kolter Matt Fredrikson 293 1,518 0 27 Jul 2023
DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models Wei Ping Weixin Chen Hengzhi Pei Chulin Xie Mintong Kang ... Zinan Lin Yuk-Kit Cheng Sanmi Koyejo Basel Alomair Yue Liu 112 430 0 20 Jun 2023
Membership Inference Attacks against Language Models via Neighbourhood Comparison Justus Mattern Fatemehsadat Mireshghallah Zhijing Jin Bernhard Schölkopf Mrinmaya Sachan Taylor Berg-Kirkpatrick MIALM 91 189 0 29 May 2023
Selective Pre-training for Private Fine-tuning Da Yu Sivakanth Gopi Janardhan Kulkarni Zinan Lin Saurabh Naik Tomasz Religa Jian Yin Huishuai Zhang 84 19 0 23 May 2023
Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks Daniel Kang Xuechen Li Ion Stoica Carlos Guestrin Matei A. Zaharia Tatsunori Hashimoto AAML 97 253 0 11 Feb 2023
Black Box Adversarial Prompting for Foundation Models Natalie Maus Patrick Chao Eric Wong Jacob R. Gardner VLM 64 60 0 08 Feb 2023
Analyzing Leakage of Personally Identifiable Information in Language Models Nils Lukas A. Salem Robert Sim Shruti Tople Lukas Wutschitz Santiago Zanella Béguelin PILM 129 233 0 01 Feb 2023
Privacy Adhering Machine Un-learning in NLP Vinayshekhar Bannihatti Kumar Rashmi Gangadharaiah Dan Roth AILaw MU 66 31 0 19 Dec 2022
Differentially Private Language Models for Secure Data Sharing Justus Mattern Zhijing Jin Benjamin Weggenmann Bernhard Schoelkopf Mrinmaya Sachan SyDa 73 51 0 25 Oct 2022
Knowledge Unlearning for Mitigating Privacy Risks in Language Models Joel Jang Dongkeun Yoon Sohee Yang Sungmin Cha Moontae Lee Lajanugen Logeswaran Minjoon Seo KELM PILM MU 206 239 0 04 Oct 2022
Differentially Private Optimization on Large Model at Small Cost Zhiqi Bu Yu Wang Sheng Zha George Karypis 93 55 0 30 Sep 2022
TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for Multilingual Tweet Representations at Twitter Xinyang Zhang Yury Malkov Omar U. Florez Serim Park Brian McWilliams Jiawei Han Ahmed El-Kishky VLM 98 94 0 15 Sep 2022
When Does Differentially Private Learning Not Suffer in High Dimensions? Xuechen Li Daogao Liu Tatsunori Hashimoto Huseyin A. Inan Janardhan Kulkarni Y. Lee Abhradeep Thakurta 69 57 0 01 Jul 2022
Automatic Clipping: Differentially Private Deep Learning Made Easier and Stronger Zhiqi Bu Yu Wang Sheng Zha George Karypis 121 71 0 14 Jun 2022
Are Large Pre-Trained Language Models Leaking Your Personal Information? Jie Huang Hanyin Shao Kevin Chen-Chuan Chang PILM 98 200 0 25 May 2022
Memorization in NLP Fine-tuning Methods Fatemehsadat Mireshghallah Archit Uniyal Tianhao Wang David Evans Taylor Berg-Kirkpatrick AAML 104 43 0 25 May 2022
Quantifying Privacy Risks of Masked Language Models Using Membership Inference Attacks Fatemehsadat Mireshghallah Kartik Goyal Archit Uniyal Taylor Berg-Kirkpatrick Reza Shokri MIALM 68 166 0 08 Mar 2022
The Text Anonymization Benchmark (TAB): A Dedicated Corpus and Evaluation Framework for Text Anonymization Ildikó Pilán Pierre Lison Lilja Ovrelid Anthia Papadopoulou David Sánchez Montserrat Batet AILaw 89 88 0 25 Jan 2022
Counterfactual Memorization in Neural Language Models Chiyuan Zhang Daphne Ippolito Katherine Lee Matthew Jagielski Florian Tramèr Nicholas Carlini 88 137 0 24 Dec 2021
Membership Inference Attacks From First Principles Nicholas Carlini Steve Chien Milad Nasr Shuang Song Andreas Terzis Florian Tramèr MIACV MIALM 87 706 0 07 Dec 2021
On the Importance of Difficulty Calibration in Membership Inference Attacks Lauren Watson Chuan Guo Graham Cormode Alex Sablayrolles 93 134 0 15 Nov 2021
Differentially Private Fine-tuning of Language Models Da Yu Saurabh Naik A. Backurs Sivakanth Gopi Huseyin A. Inan ... Y. Lee Andre Manoel Lukas Wutschitz Sergey Yekhanin Huishuai Zhang 240 371 0 13 Oct 2021
ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation Yu Sun Shuohuan Wang Shikun Feng Siyu Ding Chao Pang ... Ouyang Xuan Dianhai Yu Hao Tian Hua Wu Haifeng Wang 107 472 0 05 Jul 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 493 10,526 0 17 Jun 2021
Does BERT Pretrained on Clinical Notes Reveal Sensitive Data? Eric P. Lehman Sarthak Jain Karl Pichotta Yoav Goldberg Byron C. Wallace OOD MIACV 69 121 0 15 Apr 2021
Explaining Neural Scaling Laws Yasaman Bahri Ethan Dyer Jared Kaplan Jaehoon Lee Utkarsh Sharma 78 269 0 12 Feb 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown Basel Alomair Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 509 1,953 0 14 Dec 2020
What Neural Networks Memorize and Why: Discovering the Long Tail via Influence Estimation Vitaly Feldman Chiyuan Zhang TDI 213 470 0 09 Aug 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 482 1,768 0 18 Sep 2019
Neural Legal Judgment Prediction in English Ilias Chalkidis Ion Androutsopoulos Nikolaos Aletras AILaw ELM 174 339 0 05 Jun 2019
Exploiting Unintended Feature Leakage in Collaborative Learning Luca Melis Congzheng Song Emiliano De Cristofaro Vitaly Shmatikov FedML 159 1,482 0 10 May 2018
Membership Inference Attacks against Machine Learning Models Reza Shokri M. Stronati Congzheng Song Vitaly Shmatikov SLR MIALM MIACV 278 4,160 0 18 Oct 2016
Deep Learning with Differential Privacy Martín Abadi Andy Chu Ian Goodfellow H. B. McMahan Ilya Mironov Kunal Talwar Li Zhang FedML SyDa 216 6,172 0 01 Jul 2016