Watermarking Makes Language Models Radioactive

Watermarking Makes Language Models Radioactive

22 February 2024

Pierre Fernandez

Papers citing "Watermarking Makes Language Models Radioactive"

13 / 13 papers shown

Title
Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation Xin Yi Shunfan Zhengc Linlin Wanga Xiaoling Wang Liang He Liang He AAML 139 0 0 24 Apr 2025
STAMP Your Content: Proving Dataset Membership via Watermarked Rephrasings Saksham Rastogi Pratyush Maini Danish Pruthi 42 0 0 18 Apr 2025
Evidencing Unauthorized Training Data from AI Generated Content using Information Isotopes Qi Tao Yin Jinhua Cai Dongqi Xie Yueqi Wang Huili ... Zhou Zhili Wang Shangguang Lyu Lingjuan Huang Yongfeng Lane Nicholas 40 0 0 24 Mar 2025
Provably Robust Watermarks for Open-Source Language Models Miranda Christ Sam Gunn Tal Malkin Mariana Raykova WaLM 45 2 0 24 Oct 2024
Can Watermarked LLMs be Identified by Users via Crafted Prompts? Aiwei Liu Sheng Guan Y. Liu L. Pan Yifei Zhang Liancheng Fang Lijie Wen Philip S. Yu Xuming Hu WaLM 118 2 0 04 Oct 2024
Ward: Provable RAG Dataset Inference via LLM Watermarks Nikola Jovanović Robin Staab Maximilian Baader Martin Vechev 139 1 0 04 Oct 2024
Membership Inference Attacks Cannot Prove that a Model Was Trained On Your Data Jie Zhang Debeshee Das Gautam Kamath Florian Tramèr MIALM MIACV 233 16 1 29 Sep 2024
On the Learnability of Watermarks for Language Models Chenchen Gu Xiang Lisa Li Percy Liang Tatsunori Hashimoto WaLM 63 31 0 07 Dec 2023
Instruction Tuning with GPT-4 Baolin Peng Chunyuan Li Pengcheng He Michel Galley Jianfeng Gao SyDa ALM LM&MA 159 579 0 06 Apr 2023
CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks Xuanli He Qiongkai Xu Yi Zeng Lingjuan Lyu Fangzhao Wu Jiwei Li R. Jia WaLM 183 71 0 19 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,915 0 04 Mar 2022
Protecting Intellectual Property of Language Generation APIs with Lexical Watermark Xuanli He Qiongkai Xu Lingjuan Lyu Fangzhao Wu Chenguang Wang WaLM 172 94 0 05 Dec 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 290 1,814 0 14 Dec 2020