Can Language Models be Instructed to Protect Personal Information?

3 October 2023

Papers citing "Can Language Models be Instructed to Protect Personal Information?"

34 / 34 papers shown

Title
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation Vaidehi Patil Yi-Lin Sung Peter Hase Jie Peng Jen-tse Huang Joey Tianyi Zhou AAML MU 84 3 0 01 May 2025
REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models Jie M. Zhang Zheng Yuan Ziyi Wang Bei Yan Sibo Wang Xiangkui Cao Zonghui Guo Shiguang Shan Xilin Chen ELM 47 0 0 20 Mar 2025
Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning Yiwei Chen Yuguang Yao Yihua Zhang Bingquan Shen Gaowen Liu Sijia Liu AAML MU 63 1 0 14 Mar 2025
Language Models can Self-Improve at State-Value Estimation for Better Search Ethan Mendes Alan Ritter LRM 62 3 0 04 Mar 2025
Watch Out Your Album! On the Inadvertent Privacy Memorization in Multi-Modal Large Language Models Tianjie Ju Yi Hua Hao Fei Zhenyu Shao Yubin Zheng Haodong Zhao M. Lee W. Hsu Zhuosheng Zhang Gongshen Liu 48 0 0 03 Mar 2025
Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models Qin Liu Chao Shang Ling Liu Nikolaos Pappas Jie Ma Neha Anna John Srikanth Doss Kadarundalagi Raghuram Doss Lluís Marquez Miguel Ballesteros Yassine Benajiba 39 4 0 11 Oct 2024
Prompt Obfuscation for Large Language Models David Pape Thorsten Eisenhofer Thorsten Eisenhofer Lea Schönherr AAML 38 2 0 17 Sep 2024
A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training Michał Perełkiewicz Rafał Poświata 45 1 0 10 Jul 2024
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends Daizong Liu Mingyu Yang Xiaoye Qu Pan Zhou Yu Cheng Wei Hu ELM AAML 30 25 0 10 Jul 2024
Granular Privacy Control for Geolocation with Vision Language Models Ethan Mendes Yang Chen James Hays Sauvik Das Wei-ping Xu Alan Ritter 53 3 0 06 Jul 2024
Security of AI Agents Yifeng He Ethan Wang Yuyang Rong Zifei Cheng Hao Chen LLMAG 42 8 0 12 Jun 2024
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation Yunhao Gou Kai Chen Zhili Liu Lanqing Hong Hang Xu Zhenguo Li Dit-Yan Yeung James T. Kwok Yu Zhang MLLM 46 40 0 14 Mar 2024
Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space Leo Schwinn David Dobre Sophie Xhonneux Gauthier Gidel Stephan Gunnemann AAML 51 38 0 14 Feb 2024
A Survey on Safe Multi-Modal Learning System Tianyi Zhao Liangliang Zhang Yao Ma Lu Cheng 60 9 0 08 Feb 2024
Human-Centered Privacy Research in the Age of Large Language Models Tianshi Li Sauvik Das Hao-Ping Lee Dakuo Wang Bingsheng Yao Zhiping Zhang PILM 23 11 0 03 Feb 2024
Safety of Multimodal Large Language Models on Images and Texts Xin Liu Yichen Zhu Yunshi Lan Chao Yang Yu Qiao 29 28 0 01 Feb 2024
Red-Teaming for Generative AI: Silver Bullet or Security Theater? Michael Feffer Anusha Sinha Wesley Hanwen Deng Zachary Chase Lipton Hoda Heidari AAML 38 67 0 29 Jan 2024
Red Teaming Visual Language Models Mukai Li Lei Li Yuwei Yin Masood Ahmed Zhenguang Liu Qi Liu VLM 43 30 0 23 Jan 2024
A Comprehensive Study of Knowledge Editing for Large Language Models Ningyu Zhang Yunzhi Yao Bo Tian Peng Wang Shumin Deng ... Lei Liang Qing Cui Xiao-Jun Zhu Jun Zhou Huajun Chen KELM 47 77 0 02 Jan 2024
MetaAID 2.5: A Secure Framework for Developing Metaverse Applications via Large Language Models Hongyin Zhu 39 6 0 22 Dec 2023
Exploiting Novel GPT-4 APIs Kellin Pelrine Mohammad Taufeeque Michal Zajkac Euan McLean Adam Gleave SILM 26 20 0 21 Dec 2023
MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models Xin Liu Yichen Zhu Jindong Gu Yunshi Lan Chao Yang Yu Qiao 30 84 0 29 Nov 2023
NERIF: GPT-4V for Automatic Scoring of Drawn Models Gyeong-Geon Lee Xiaoming Zhai 13 9 0 21 Nov 2023
Reducing Privacy Risks in Online Self-Disclosures with Language Models Yao Dou Isadora Krsek Tarek Naous Anubha Kabra Sauvik Das Alan Ritter Wei-ping Xu 38 21 0 16 Nov 2023
Benefits and Harms of Large Language Models in Digital Mental Health Munmun De Choudhury Sachin R. Pendse Neha Kumar LM&MA AI4MH 30 41 0 07 Nov 2023
Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory Niloofar Mireshghallah Hyunwoo J. Kim Xuhui Zhou Yulia Tsvetkov Maarten Sap Reza Shokri Yejin Choi PILM 38 75 0 27 Oct 2023
How to DP-fy ML: A Practical Guide to Machine Learning with Differential Privacy Natalia Ponomareva Hussein Hazimeh Alexey Kurakin Zheng Xu Carson E. Denison H. B. McMahan Sergei Vassilvitskii Steve Chien Abhradeep Thakurta 96 167 0 01 Mar 2023
Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities Hexiang Hu Yi Luan Yang Chen Urvashi Khandelwal Mandar Joshi Kenton Lee Kristina Toutanova Ming-Wei Chang VLM 55 55 0 22 Feb 2023
Knowledge Unlearning for Mitigating Privacy Risks in Language Models Joel Jang Dongkeun Yoon Sohee Yang Sungmin Cha Moontae Lee Lajanugen Logeswaran Minjoon Seo KELM PILM MU 147 193 0 04 Oct 2022
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned Deep Ganguli Liane Lovitt John Kernion Amanda Askell Yuntao Bai ... Nicholas Joseph Sam McCandlish C. Olah Jared Kaplan Jack Clark 231 446 0 23 Aug 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 339 12,003 0 04 Mar 2022
Differentially Private Fine-tuning of Language Models Da Yu Saurabh Naik A. Backurs Sivakanth Gopi Huseyin A. Inan ... Y. Lee Andre Manoel Lukas Wutschitz Sergey Yekhanin Huishuai Zhang 134 347 0 13 Oct 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 290 1,824 0 14 Dec 2020
A Survey on Bias and Fairness in Machine Learning Ninareh Mehrabi Fred Morstatter N. Saxena Kristina Lerman Aram Galstyan SyDa FaML 326 4,223 0 23 Aug 2019