Proactive Detection of Voice Cloning with Localized Watermarking

30 January 2024

Robin San Roman

Pierre Fernandez

Papers citing "Proactive Detection of Voice Cloning with Localized Watermarking"

23 / 23 papers shown

Title
CloneShield: A Framework for Universal Perturbation Against Zero-Shot Voice Cloning Renyuan Li Zhibo Liang Haichuan Zhang Tianyu Shi Zhiyuan Cheng Jia Shi Carl Yang Mingjie Tang AAML 126 0 0 25 May 2025
SecureGS: Boosting the Security and Fidelity of 3D Gaussian Splatting Steganography Xinyu Zhang Jiarui Meng Zhipei Xu Shuzhou Yang Y. Wu Ronggang Wang Jian Zhang 98 2 0 08 Mar 2025
Survey on AI-Generated Media Detection: From Non-MLLM to MLLM Yueying Zou Peipei Li Zekun Li Huaibo Huang Xing Cui Xuannan Liu Chenghanyu Zhang Ran He DeLMO 156 3 0 07 Feb 2025
SSR-Speech: Towards Stable, Safe and Robust Zero-shot Text-based Speech Editing and Synthesis Helin Wang Meng Yu Jiarui Hai Chen Chen Yuchen Hu Rilin Chen Najim Dehak Dong Yu 103 6 0 03 Jan 2025
AI-generated Image Detection: Passive or Watermark? Moyang Guo Yuepeng Hu Zhengyuan Jiang Zeyu Li Amir Sadovnik Arka Daw Neil Zhenqiang Gong 165 1 0 20 Nov 2024
Images that Sound: Composing Images and Sounds on a Single Canvas Ziyang Chen Daniel Geng Andrew Owens DiffM 85 9 0 20 May 2024
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis Tu Nguyen Wei-Ning Hsu Antony DÁvirro Bowen Shi Itai Gat ... Gabriel Synnaeve Michael Hassid Felix Kreuk Yossi Adi Emmanuel Dupoux 57 60 0 10 Aug 2023
Single and Multi-Speaker Cloned Voice Detection: From Perceptual to Learned Features Sarah Barrington Romit Barua Gautham Koorma Hany Farid 48 15 0 15 Jul 2023
High-Fidelity Audio Compression with Improved RVQGAN Rithesh Kumar Prem Seetharaman Alejandro Luebs I. Kumar Kundan Kumar 82 326 0 11 Jun 2023
The Stable Signature: Rooting Watermarks in Latent Diffusion Models Pierre Fernandez Guillaume Couairon Hervé Jégou Matthijs Douze Teddy Furon WIGM 88 189 0 27 Mar 2023
ASVspoof 2021: Towards Spoofed and Deepfake Speech Detection in the Wild Xuechen Liu Xin Wang Md. Sahidullah J. Patino Héctor Delgado ... Massimiliano Todisco Junichi Yamagishi Nicholas W. D. Evans A. Nautsch Kong Aik Lee 83 180 0 05 Oct 2022
AudioGen: Textually Guided Audio Generation Felix Kreuk Gabriel Synnaeve Adam Polyak Uriel Singer Alexandre Défossez Jade Copet Devi Parikh Yaniv Taigman Yossi Adi DiffM 60 306 0 30 Sep 2022
AudioLM: a Language Modeling Approach to Audio Generation Zalan Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin ... Dominik Roblek O. Teboul David Grangier Marco Tagliasacchi Neil Zeghidour AuLLM 126 601 0 07 Sep 2022
Does Audio Deepfake Detection Generalize? Nicolas Müller Pavel Czempin Franziska Dieckmann Adam Froghyar Konstantin Böttinger 65 146 0 30 Mar 2022
A $^3$ T: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing Richard He Bai Renjie Zheng Junkun Chen Xintong Li Mingbo Ma Liang Huang 66 52 0 18 Mar 2022
YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone Edresson Casanova Julian Weber C. Shulby Arnaldo Cândido Júnior Eren Golge M. Ponti 217 403 0 04 Dec 2021
VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation Changhan Wang M. Rivière Ann Lee Anne Wu Chaitanya Talnikar Daniel Haziza Mary Williamson J. Pino Emmanuel Dupoux SSL 80 484 0 02 Jan 2021
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis Jungil Kong Jaehyeon Kim Jaekyoung Bae 162 1,923 0 12 Oct 2020
Artificial Fingerprinting for Generative Models: Rooting Deepfake Attribution in Training Data Ning Yu Vladislav Skripniuk Sahar Abdelnabi Mario Fritz WIGM 52 215 0 16 Jul 2020
Real Time Speech Enhancement in the Waveform Domain Alexandre Défossez Gabriel Synnaeve Yossi Adi 67 457 0 23 Jun 2020
Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech separation Yi Luo Zhuo Chen Takuya Yoshioka AI4TS 70 770 0 14 Oct 2019
Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation Yi Luo N. Mesgarani 144 1,783 0 20 Sep 2018
WaveNet: A Generative Model for Raw Audio Aaron van den Oord Sander Dieleman Heiga Zen Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner A. Senior Koray Kavukcuoglu DiffM 352 7,381 0 12 Sep 2016