Red Teaming Language Model Detectors with Language Models

Red Teaming Language Model Detectors with Language Models

31 May 2023

Papers citing "Red Teaming Language Model Detectors with Language Models"

13 / 13 papers shown

Title
A Survey of Attacks on Large Language Models Wenrui Xu Keshab K. Parhi AAML ELM 7 0 0 18 May 2025
EvoFlow: Evolving Diverse Agentic Workflows On The Fly Guibin Zhang Kaijie Chen Guancheng Wan Heng Chang Hong Cheng Kaidi Wang Shuyue Hu Lei Bai 92 2 0 11 Feb 2025
DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios Junchao Wu Runzhe Zhan Derek F. Wong Shu Yang Xinyi Yang Yulin Yuan Lidia S. Chao DeLMO 58 2 0 31 Oct 2024
Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods Kathleen C. Fraser Hillary Dawkins S. Kiritchenko DeLMO 79 7 0 21 Jun 2024
Detecting Multimedia Generated by Large AI Models: A Survey Li Lin Neeraj Gupta Yue Zhang Hainan Ren Chun-Hao Liu Feng Ding Xin Wang Xin Li Luisa Verdoliva Shu Hu 88 57 0 22 Jan 2024
Optimizing watermarks for large language models Bram Wouters WaLM 26 3 0 28 Dec 2023
Students Parrot Their Teachers: Membership Inference on Model Distillation Matthew Jagielski Milad Nasr Christopher A. Choquette-Choo Katherine Lee Nicholas Carlini FedML 41 21 0 06 Mar 2023
Exploring The Landscape of Distributional Robustness for Question Answering Models Anas Awadalla Mitchell Wortsman Gabriel Ilharco Sewon Min Ian H. Magnusson Hannaneh Hajishirzi Ludwig Schmidt ELM OOD KELM 72 19 0 22 Oct 2022
Unsolved Problems in ML Safety Dan Hendrycks Nicholas Carlini John Schulman Jacob Steinhardt 186 275 0 28 Sep 2021
A Token-level Reference-free Hallucination Detection Benchmark for Free-form Text Generation Tianyu Liu Yizhe Zhang Chris Brockett Yi Mao Zhifang Sui Weizhu Chen W. Dolan HILM 228 144 0 18 Apr 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 290 1,815 0 14 Dec 2020
Generating Natural Language Adversarial Examples M. Alzantot Yash Sharma Ahmed Elgohary Bo-Jhang Ho Mani B. Srivastava Kai-Wei Chang AAML 245 915 0 21 Apr 2018
Adversarial Example Generation with Syntactically Controlled Paraphrase Networks Mohit Iyyer John Wieting Kevin Gimpel Luke Zettlemoyer AAML GAN 205 712 0 17 Apr 2018