Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training

Digger: Detecting Copyright Content Mis-usage in Large Language Model Training

1 January 2024

Kailong Wang

Yang Liu

Haoyu Wang

ArXiv (abs)PDF HTML

Papers citing "Digger: Detecting Copyright Content Mis-usage in Large Language Model Training"

15 / 15 papers shown

Title
Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness Rongzhe Wei Peizhi Niu Hans Hao-Hsun Hsu Ruihan Wu Haoteng Yin ... Vamsi K. Potluru Eli Chien Kamalika Chaudhuri Olgica Milenković P. Li MU KELM 67 0 0 06 Jun 2025
A Survey on Unlearnable Data Jiahao Li Yiqiang Chen Yunbing Xing Yang Gu Xiangyuan Lan AAML 116 0 0 30 Mar 2025
SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning Tianyang Xu Xiaoze Liu Feijie Wu Xiaoqian Wang Jing Gao MU 162 1 0 29 Mar 2025
Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach Javier Coronado-Blázquez HILM ELM 114 0 0 27 Mar 2025
SoK: Dataset Copyright Auditing in Machine Learning Systems L. Du Xuanru Zhou M. Chen Chusong Zhang Zhou Su Peng Cheng Jiming Chen Zhikun Zhang MLAU 128 6 0 22 Oct 2024
Catastrophic Failure of LLM Unlearning via Quantization Zhiwei Zhang Fali Wang Xiaomin Li Zongyu Wu Xianfeng Tang Hui Liu Qi He Wenpeng Yin Suhang Wang MU 97 18 0 21 Oct 2024
CAP: Detecting Unauthorized Data Usage in Generative Models via Prompt Generation Daniela Gallo Angelica Liguori Ettore Ritacco Luca Caviglione Fabrizio Durante Giuseppe Manco 87 0 0 08 Oct 2024
Nob-MIAs: Non-biased Membership Inference Attacks Assessment on Large Language Models with Ex-Post Dataset Construction Cédric Eichler Nathan Champeil Nicolas Anciaux Alexandra Bensamoun Héber H. Arcolezi José Maria De Fuentes 100 4 0 12 Aug 2024
GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens in Large Language Models Zhibo Zhang Wuxia Bai Yuxi Li Max Meng Kaidi Wang Ling Shi Li Li Jun Wang Haoyu Wang 71 4 0 09 Aug 2024
SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation Xiaoze Liu Ting Sun Tianyang Xu Feijie Wu Cunxiang Wang Xiaoqian Wang Jing Gao AAML DeLMO AILaw 126 22 0 18 Jun 2024
Towards Transparency: Exploring LLM Trainings Datasets through Visual Topic Modeling and Semantic Frame Charles de Dampierre Andrei Mogoutov Nicolas Baumard 96 2 0 03 Jun 2024
Uncertain Boundaries: Multidisciplinary Approaches to Copyright Issues in Generative AI Jocelyn Dzuong Zhipeng Yin Zichong Wang Avash Palikhe Wenbin Zhang 53 9 0 31 Mar 2024
Threats, Attacks, and Defenses in Machine Unlearning: A Survey Ziyao Liu Huanyi Ye Chen Chen Yongsen Zheng K. Lam AAML MU 129 33 0 20 Mar 2024
On the Challenges and Opportunities in Generative AI Laura Manduchi Kushagra Pandey Robert Bamler Ryan Cotterell Sina Daubener ... F. Wenzel Frank Wood Stephan Mandt Vincent Fortuin Vincent Fortuin 288 22 0 28 Feb 2024
PentestGPT: An LLM-empowered Automatic Penetration Testing Tool Gelei Deng Yi Liu Víctor Mayoral-Vilches Peng Liu Yuekang Li Yuan Xu Tianwei Zhang Yang Liu M. Pinzger Stefan Rass LLMAG 81 90 0 13 Aug 2023