v1v2v3 (latest)

Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation

24 April 2025

Papers citing "Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation"

30 / 30 papers shown

Title
Idiosyncrasies in Large Language Models Mingjie Sun Yida Yin Zhiqiu Xu J. Zico Kolter Zhuang Liu 107 7 0 17 Feb 2025
Peering Behind the Shield: Guardrail Identification in Large Language Models Ziqing Yang Yixin Wu Rui Wen Michael Backes Yang Zhang 81 1 0 03 Feb 2025
BiMarker: Enhancing Text Watermark Detection for Large Language Models with Bipolar Watermarks Zhuang Li 93 1 0 21 Jan 2025
Can AI-Generated Text be Reliably Detected? Vinu Sankar Sadasivan Aounon Kumar S. Balasubramanian Wenxiao Wang Soheil Feizi DeLMO 245 389 0 20 Jan 2025
Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-level Signature Tong Zhou Xuandong Zhao Xiaolin Xu Shaolei Ren 73 11 0 04 Jun 2024
MarkLLM: An Open-Source Toolkit for LLM Watermarking Leyi Pan Aiwei Liu Zhiwei He Zitian Gao Xuandong Zhao ... Shuliang Liu Xuming Hu Lijie Wen Irwin King Philip S. Yu 107 37 0 16 May 2024
Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models Mingjia Huo Sai Ashish Somayajula Youwei Liang Ruisi Zhang F. Koushanfar Pengtao Xie WaLM 101 20 0 28 Feb 2024
tinyBenchmarks: evaluating LLMs with fewer examples Felipe Maia Polo Lucas Weber Leshem Choshen Yuekai Sun Gongjun Xu Mikhail Yurochkin ELM 94 99 0 22 Feb 2024
Watermarking Makes Language Models Radioactive Tom Sander Pierre Fernandez Alain Durmus Matthijs Douze Teddy Furon WaLM 70 19 0 22 Feb 2024
Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! Zhanhui Zhou Jie Liu Zhichen Dong Jiaheng Liu Chao Yang Wanli Ouyang Yu Qiao 96 22 0 19 Feb 2024
Alleviating Hallucinations of Large Language Models through Induced Hallucinations Yue Zhang Leyang Cui Wei Bi Shuming Shi HILM 88 57 0 25 Dec 2023
A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models Yihan Wu Zhengmian Hu Junfeng Guo Hongyang R. Zhang Heng-Chiao Huang WaLM 71 23 0 11 Oct 2023
Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation Yangsibo Huang Samyak Gupta Mengzhou Xia Kai Li Danqi Chen AAML 73 311 0 10 Oct 2023
A Semantic Invariant Robust Watermark for Large Language Models Aiwei Liu Leyi Pan Xuming Hu Shiao Meng Lijie Wen WaLM 97 64 0 10 Oct 2023
Can LLM-Generated Misinformation Be Detected? Canyu Chen Kai Shu DeLMO 142 182 0 25 Sep 2023
Unbiased Watermark for Large Language Models Zhengmian Hu Lichang Chen Xidong Wu Yihan Wu Hongyang R. Zhang Heng-Chiao Huang WaLM 80 58 0 22 Sep 2023
Robust Distortion-free Watermarks for Language Models Rohith Kuditipudi John Thickstun Tatsunori Hashimoto Percy Liang WaLM 90 184 0 28 Jul 2023
Provable Robust Watermarking for AI-Generated Text Xuandong Zhao P. Ananth Lei Li Yu-Xiang Wang WaLM 117 187 0 30 Jun 2023
On the Reliability of Watermarks for Large Language Models John Kirchenbauer Jonas Geiping Yuxin Wen Manli Shu Khalid Saifullah Kezhi Kong Kasun Fernando Aniruddha Saha Micah Goldblum Tom Goldstein WaLM 63 123 0 07 Jun 2023
Undetectable Watermarks for Language Models Miranda Christ Sam Gunn Or Zamir WaLM 64 146 0 25 May 2023
On the Risk of Misinformation Pollution with Large Language Models Yikang Pan Liangming Pan Wenhu Chen Preslav Nakov Min-Yen Kan Wenjie Wang DeLMO 240 127 0 23 May 2023
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense Kalpesh Krishna Yixiao Song Marzena Karpinska John Wieting Mohit Iyyer DeLMO 72 323 0 23 Mar 2023
A Watermark for Large Language Models John Kirchenbauer Jonas Geiping Yuxin Wen Jonathan Katz Ian Miers Tom Goldstein VLM WaLM 113 508 0 24 Jan 2023
On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning Omar Shaikh Hongxin Zhang William B. Held Michael S. Bernstein Diyi Yang ReLM LRM 149 200 0 15 Dec 2022
Contrastive Decoding: Open-ended Text Generation as Optimization Xiang Lisa Li Ari Holtzman Daniel Fried Percy Liang Jason Eisner Tatsunori Hashimoto Luke Zettlemoyer M. Lewis 125 374 0 27 Oct 2022
Protecting Intellectual Property of Language Generation APIs with Lexical Watermark Xuanli He Xingliang Yuan Lingjuan Lyu Fangzhao Wu Chenguang Wang WaLM 240 98 0 05 Dec 2021
DExperts: Decoding-Time Controlled Text Generation with Experts and Anti-Experts Alisa Liu Maarten Sap Ximing Lu Swabha Swayamdipta Chandra Bhagavatula Noah A. Smith Yejin Choi MU 115 376 0 07 May 2021
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization Jingqing Zhang Yao-Min Zhao Mohammad Saleh Peter J. Liu RALM 3DGS 297 2,054 0 18 Dec 2019
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 490 20,342 0 23 Oct 2019
Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge Peter Clark Isaac Cowhey Oren Etzioni Tushar Khot Ashish Sabharwal Carissa Schoenick Oyvind Tafjord ELM RALM LRM 198 2,670 0 14 Mar 2018