Unbiased Watermark for Large Language Models

22 September 2023

Papers citing "Unbiased Watermark for Large Language Models"

25 / 25 papers shown

Title
An End-to-End Model For Logits Based Large Language Models Watermarking Kahim Wong Jicheng Zhou Jiantao Zhou Yain-Whar Si WaLM 86 2 0 05 May 2025
Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation Xin Yi Shunfan Zhengc Linlin Wanga Xiaoling Wang Liang He Liang He AAML 385 0 0 24 Apr 2025
Can AI-Generated Text be Reliably Detected? Vinu Sankar Sadasivan Aounon Kumar S. Balasubramanian Wenxiao Wang Soheil Feizi DeLMO 209 388 0 20 Jan 2025
Can Watermarked LLMs be Identified by Users via Crafted Prompts? Aiwei Liu Sheng Guan Yang Liu Leyi Pan Yifei Zhang Liancheng Fang Lijie Wen Philip S. Yu Xuming Hu WaLM 335 5 0 04 Oct 2024
Watermark Smoothing Attacks against Language Models Hongyan Chang Hamed Hassani Reza Shokri WaLM 93 3 0 19 Jul 2024
Watermarking Language Models with Error Correcting Codes Patrick Chao Yan Sun Edgar Dobriban Hamed Hassani WaLM 82 4 0 12 Jun 2024
Black-Box Detection of Language Model Watermarks Thibaud Gloaguen Nikola Jovanović Robin Staab Martin Vechev 51 7 0 28 May 2024
Necessary and Sufficient Watermark for Large Language Models Yuki Takezawa Ryoma Sato Han Bao Kenta Niwa Makoto Yamada WaLM 79 8 0 02 Oct 2023
Robust Distortion-free Watermarks for Language Models Rohith Kuditipudi John Thickstun Tatsunori Hashimoto Percy Liang WaLM 67 177 0 28 Jul 2023
Undetectable Watermarks for Language Models Miranda Christ Sam Gunn Or Zamir WaLM 54 140 0 25 May 2023
Bot or Human? Detecting ChatGPT Imposters with A Single Question Hong Wang Xuan Luo Weizhi Wang Xifeng Yan DeLMO 43 27 0 10 May 2023
OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization Srinivasan Iyer Xi Lin Ramakanth Pasunuru Todor Mihaylov Daniel Simig ... Jeff Wang Christopher Dewan Asli Celikyilmaz Luke Zettlemoyer Veselin Stoyanov ALM 125 266 0 22 Dec 2022
Scaling Instruction-Finetuned Language Models Hyung Won Chung Le Hou Shayne Longpre Barret Zoph Yi Tay ... Jacob Devlin Adam Roberts Denny Zhou Quoc V. Le Jason W. Wei ReLM LRM 181 3,117 0 20 Oct 2022
Watermarking Pre-trained Language Models with Backdooring Chenxi Gu Chengsong Huang Xiaoqing Zheng Kai-Wei Chang Cho-Jui Hsieh WaLM 42 46 0 14 Oct 2022
Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods Evan Crothers Nathalie Japkowicz H. Viktor DeLMO 76 111 0 13 Oct 2022
Protecting Intellectual Property of Language Generation APIs with Lexical Watermark Xuanli He Xingliang Yuan Lingjuan Lyu Fangzhao Wu Chenguang Wang WaLM 233 97 0 05 Dec 2021
Bad Characters: Imperceptible NLP Attacks Nicholas Boucher Ilia Shumailov Ross J. Anderson Nicolas Papernot AAML SILM 61 106 0 18 Jun 2021
Automatic Detection of Machine Generated Text: A Critical Survey Ganesh Jawahar Muhammad Abdul-Mageed L. Lakshmanan DeLMO 61 234 0 02 Nov 2020
Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News Reuben Tan Bryan A. Plummer Kate Saenko AAML 55 72 0 16 Sep 2020
Attacking Neural Text Detectors Max Wolff Stuart Wolff AAML DeLMO 45 50 0 19 Feb 2020
Automatic Detection of Generated Text is Easiest when Humans are Fooled Daphne Ippolito Daniel Duckworth Chris Callison-Burch Douglas Eck DeLMO 75 358 0 02 Nov 2019
Defending Against Neural Fake News Rowan Zellers Ari Holtzman Hannah Rashkin Yonatan Bisk Ali Farhadi Franziska Roesner Yejin Choi AAML 118 1,025 0 29 May 2019
Turning Your Weakness Into a Strength: Watermarking Deep Neural Networks by Backdooring Yossi Adi Carsten Baum Moustapha Cissé Benny Pinkas Joseph Keshet 61 677 0 13 Feb 2018
BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain Tianyu Gu Brendan Dolan-Gavitt S. Garg SILM 120 1,772 0 22 Aug 2017
Teaching Machines to Read and Comprehend Karl Moritz Hermann Tomás Kociský Edward Grefenstette L. Espeholt W. Kay Mustafa Suleyman Phil Blunsom 341 3,547 0 10 Jun 2015