Model Extraction and Adversarial Transferability, Your BERT is Vulnerable!

18 March 2021

Lichao Sun

Papers citing "Model Extraction and Adversarial Transferability, Your BERT is Vulnerable!"

47 / 47 papers shown

Title
Privacy Evaluation Benchmarks for NLP Models Wei Huang Yinggui Wang Cen Chen ELM SILM 24 1 0 24 Sep 2024
WET: Overcoming Paraphrasing Vulnerabilities in Embeddings-as-a-Service with Linear Transformation Watermarks Anudeex Shetty Qiongkai Xu Jey Han Lau WaLM 36 2 0 29 Aug 2024
VidModEx: Interpretable and Efficient Black Box Model Extraction for High-Dimensional Spaces Somnath Sendhil Kumar Yuvaraj Govindarajulu Pavan Kulkarni Manojkumar Somabhai Parmar FAtt 46 0 0 04 Aug 2024
Risks, Causes, and Mitigations of Widespread Deployments of Large Language Models (LLMs): A Survey Md. Nazmus Sakib Md Athikul Islam Royal Pathak Md Mashrur Arifin ALM PILM 37 2 0 01 Aug 2024
Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) Apurv Verma Satyapriya Krishna Sebastian Gehrmann Madhavan Seshadri Anu Pradhan Tom Ault Leslie Barrett David Rabinowitz John Doucette Nhathai Phan 57 10 0 20 Jul 2024
Image-to-Text Logic Jailbreak: Your Imagination can Help You Do Anything Xiaotian Zou Ke Li Yongkang Chen MLLM 42 2 0 01 Jul 2024
IDT: Dual-Task Adversarial Attacks for Privacy Protection Pedro Faustini Shakila Mahjabin Tonni Annabelle McIver Qiongkai Xu Mark Dras SILM AAML 52 0 0 28 Jun 2024
Transferable Embedding Inversion Attack: Uncovering Privacy Risks in Text Embeddings without Model Queries Yu-Hsiang Huang Yuche Tsai Hsiang Hsiao Hong-Yi Lin Shou-De Lin SILM 44 8 0 12 Jun 2024
The Impact of Quantization on the Robustness of Transformer-based Text Classifiers Seyed Parsa Neshaei Yasaman Boreshban Gholamreza Ghassem-Sani Seyed Abolghasem Mirroshandel MQ 41 0 0 08 Mar 2024
WARDEN: Multi-Directional Backdoor Watermarks for Embedding-as-a-Service Copyright Protection Anudeex Shetty Yue Teng Ke He Qiongkai Xu WaLM 30 5 0 03 Mar 2024
Amplifying Training Data Exposure through Fine-Tuning with Pseudo-Labeled Memberships Myung Gyo Oh Hong Eun Ahn L. Park T.-H. Kwon MIALM AAML 34 0 0 19 Feb 2024
PAL: Proxy-Guided Black-Box Attack on Large Language Models Chawin Sitawarin Norman Mu David Wagner Alexandre Araujo ELM 29 29 0 15 Feb 2024
Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks Chenyu Zhang Lanjun Wang Anan Liu 32 6 0 16 Jan 2024
Punctuation Matters! Stealthy Backdoor Attack for Language Models Xuan Sheng Zhicheng Li Zhaoyang Han Xiangmao Chang Piji Li 40 3 0 26 Dec 2023
SenTest: Evaluating Robustness of Sentence Encoders Tanmay Chavan Shantanu Patankar Aditya Kane Omkar Gokhale Geetanjali Kale Raviraj Joshi 24 0 0 29 Nov 2023
Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration Wenjie Fu Huandong Wang Chen Gao Guanghua Liu Yong Li Tao Jiang MIALM 29 43 0 10 Nov 2023
Army of Thieves: Enhancing Black-Box Model Extraction via Ensemble based sample selection Akshit Jindal Vikram Goyal Saket Anand Chetan Arora FedML 20 2 0 08 Nov 2023
A Survey on Transferability of Adversarial Examples across Deep Neural Networks Jindong Gu Xiaojun Jia Pau de Jorge Wenqain Yu Xinwei Liu ... Anjun Hu Ashkan Khakzar Zhijiang Li Xiaochun Cao Philip Torr AAML 29 27 0 26 Oct 2023
BufferSearch: Generating Black-Box Adversarial Texts With Lower Queries Wenjie Lv Zhen Wang Yitao Zheng Zhehua Zhong Qi Xuan Tianyi Chen AAML 31 0 0 14 Oct 2023
The Trickle-down Impact of Reward (In-)consistency on RLHF Lingfeng Shen Sihao Chen Linfeng Song Lifeng Jin Baolin Peng Haitao Mi Daniel Khashabi Dong Yu 34 21 0 28 Sep 2023
Evaluating the Robustness of Text-to-image Diffusion Models against Real-world Attacks Hongcheng Gao Hao Zhang Yinpeng Dong Zhijie Deng AAML 38 21 0 16 Jun 2023
Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS Cheng-Han Chiang Yung-Sung Chuang James R. Glass Hung-yi Lee AI4TS 26 3 0 08 Jun 2023
MAWSEO: Adversarial Wiki Search Poisoning for Illicit Online Promotion Zilong Lin Zhengyi Li Xiaojing Liao Xiaofeng Wang Xiaozhong Liu AAML 10 9 0 22 Apr 2023
Stealing the Decoding Algorithms of Language Models A. Naseh Kalpesh Krishna Mohit Iyyer Amir Houmansadr MLAU 56 20 0 08 Mar 2023
Training-free Lexical Backdoor Attacks on Language Models Yujin Huang Terry Yue Zhuo Qiongkai Xu Han Hu Xingliang Yuan Chunyang Chen SILM 36 42 0 08 Feb 2023
Protecting Language Generation Models via Invisible Watermarking Xuandong Zhao Yu-Xiang Wang Lei Li WaLM 24 82 0 06 Feb 2023
TextShield: Beyond Successfully Detecting Adversarial Sentences in Text Classification Lingfeng Shen Ze Zhang Haiyun Jiang Ying-Cong Chen AAML 41 5 0 03 Feb 2023
Model Extraction Attack against Self-supervised Speech Models Tsung-Yuan Hsu Chen An Li Tung-Yu Wu Hung-yi Lee 27 1 0 29 Nov 2022
UPTON: Preventing Authorship Leakage from Public Text Release via Data Poisoning Ziyao Wang Thai Le Dongwon Lee 36 1 0 17 Nov 2022
Preserving Semantics in Textual Adversarial Attacks David Herel Hugo Cisneros Tomáš Mikolov AAML 37 6 0 08 Nov 2022
Extracted BERT Model Leaks More Information than You Think! Xuanli He Chen Chen Lingjuan Lyu Qiongkai Xu SILM MIACV 28 5 0 21 Oct 2022
Distillation-Resistant Watermarking for Model Protection in NLP Xuandong Zhao Lei Li Yu-Xiang Wang WaLM 102 18 0 07 Oct 2022
CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks Xuanli He Qiongkai Xu Yi Zeng Lingjuan Lyu Fangzhao Wu Jiwei Li R. Jia WaLM 188 72 0 19 Sep 2022
I Know What You Trained Last Summer: A Survey on Stealing Machine Learning Models and Defences Daryna Oliynyk Rudolf Mayer Andreas Rauber 39 106 0 16 Jun 2022
Edge Security: Challenges and Issues Xin Jin Charalampos Katsis Fan Sang Jiahao Sun A. Kundu Ramana Rao Kompella 47 8 0 14 Jun 2022
A Word is Worth A Thousand Dollars: Adversarial Attack on Tweets Fools Stock Predictions Yong Xie Dakuo Wang Pin-Yu Chen Jinjun Xiong Sijia Liu Oluwasanmi Koyejo AAML 27 22 0 01 May 2022
A Girl Has A Name, And It's ... Adversarial Authorship Attribution for Deobfuscation Wanyue Zhai Jonathan Rusert Zubair Shafiq P. Srinivasan 14 5 0 22 Mar 2022
On Robust Prefix-Tuning for Text Classification Zonghan Yang Yang Liu VLM 24 20 0 19 Mar 2022
A Survey of Adversarial Defences and Robustness in NLP Shreyansh Goyal Sumanth Doddapaneni Mitesh M.Khapra B. Ravindran AAML 34 30 0 12 Mar 2022
Threats to Pre-trained Language Models: Survey and Taxonomy Shangwei Guo Chunlong Xie Jiwei Li Lingjuan Lyu Tianwei Zhang PILM 27 30 0 14 Feb 2022
Fooling MOSS Detection with Pretrained Language Models Stella Biderman Edward Raff DeLMO 19 35 0 19 Jan 2022
Protecting Intellectual Property of Language Generation APIs with Lexical Watermark Xuanli He Qiongkai Xu Lingjuan Lyu Fangzhao Wu Chenguang Wang WaLM 177 95 0 05 Dec 2021
Virtual Data Augmentation: A Robust and General Framework for Fine-tuning Pre-trained Models Kun Zhou Wayne Xin Zhao Sirui Wang Fuzheng Zhang Wei Wu Ji-Rong Wen AAML 21 7 0 13 Sep 2021
Student Surpasses Teacher: Imitation Attack for Black-Box NLP APIs Qiongkai Xu Xuanli He Lingjuan Lyu Lizhen Qu Gholamreza Haffari MLAU 40 22 0 29 Aug 2021
Killing One Bird with Two Stones: Model Extraction and Attribute Inference Attacks against BERT-based APIs Chen Chen Xuanli He Lingjuan Lyu Fangzhao Wu SILM MIACV 65 7 0 23 May 2021
Membership Inference Attacks on Knowledge Graphs Yu Wang Lifu Huang Philip S. Yu Lichao Sun MIACV 27 15 0 16 Apr 2021
Privacy and Robustness in Federated Learning: Attacks and Defenses Lingjuan Lyu Han Yu Xingjun Ma Chen Chen Lichao Sun Jun Zhao Qiang Yang Philip S. Yu FedML 183 355 0 07 Dec 2020