v1v2 (latest)

VoxCeleb: a large-scale speaker identification dataset

26 June 2017

Arsha Nagrani

Joon Son Chung

Andrew Zisserman

ArXiv (abs)PDF HTML

Papers citing "VoxCeleb: a large-scale speaker identification dataset"

50 / 1,111 papers shown

Title
LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via Latent Ensemble Attack Joonkyo Shim H. Yoon DiffM AAML 112 2 0 04 Jul 2023
Enrollment-stage Backdoor Attacks on Speaker Recognition Systems via Adversarial Ultrasound Xinfeng Li Junning Ze Chen Yan Yushi Cheng Xiaoyu Ji Wei Dong AAML 75 12 0 28 Jun 2023
Fake the Real: Backdoor Attack on Deep Speech Classification via Voice Conversion Zhe Ye Terui Mao Li Dong Diqun Yan AAML 63 8 0 28 Jun 2023
Large-scale unsupervised audio pre-training for video-to-speech synthesis Triantafyllos Kefalas Yannis Panagakis Maja Pantic VGen 71 4 0 27 Jun 2023
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement Siqi Zheng Luyao Cheng Yafeng Chen Haibo Wang Qian Chen 68 19 0 27 Jun 2023
Factors Affecting the Performance of Automated Speaker Verification in Alzheimer's Disease Clinical Trials Malikeh Ehghaghi Marija Stanojevic Ali Akram Jekaterina Novikova 70 1 0 20 Jun 2023
Emotional Speech-Driven Animation with Content-Emotion Disentanglement Radek Danvevcek Kiran Chhatre Shashank Tripathi Yandong Wen Michael J. Black Timo Bolkart 77 71 0 15 Jun 2023
When to Use Efficient Self Attention? Profiling Text, Speech and Image Transformer Variants Anuj Diwan Eunsol Choi David Harwath 81 0 0 14 Jun 2023
Parametric Implicit Face Representation for Audio-Driven Facial Reenactment Ricong Huang Puxiang Lai Yipeng Qin Guanbin Li CVBM DiffM 113 14 0 13 Jun 2023
Speaker Verification Across Ages: Investigating Deep Speaker Embedding Sensitivity to Age Mismatch in Enrollment and Test Speech Vishwanath Pratap Singh Md. Sahidullah Tomi Kinnunen 50 4 0 13 Jun 2023
IFaceUV: Intuitive Motion Facial Image Generation by Identity Preservation via UV map Han-Lim Lee Yu-Te Ku Eunseok Kim Seungryul Baek 3DH 45 0 0 08 Jun 2023
Self-supervised Audio Teacher-Student Transformer for Both Clip-level and Frame-level Tasks Xian Li Nian Shao Xiaofei Li ViT CLIP 103 28 0 07 Jun 2023
Experimenting with Additive Margins for Contrastive Self-Supervised Speaker Verification Theo Lepage Reda Dehak SSL 62 3 0 06 Jun 2023
Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks Jianrong Wang Yaxin Zhao Li Liu Tian-Shun Xu Qi Li Sen Li 68 9 0 06 Jun 2023
BeyondPixels: A Comprehensive Review of the Evolution of Neural Radiance Fields AKM SHAHARIAR AZAD RABBY Chengcui Zhang 91 29 0 05 Jun 2023
MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information Jianrong Wang Yuchen Huo Li Liu Tianyi Xu Qi Li Sen Li 64 3 0 04 Jun 2023
ALO-VC: Any-to-any Low-latency One-shot Voice Conversion Bo Wang Damien Ronssin Milos Cernak BDL 84 3 0 01 Jun 2023
Exploration on HuBERT with Multiple Resolutions Jiatong Shi Yun Tang Hirofumi Inaguma Hongyu Gong J. Pino Shinji Watanabe 103 9 0 01 Jun 2023
Meta-Learning Framework for End-to-End Imposter Identification in Unseen Speaker Recognition Ashutosh Chaubey Sparsh Sinha Susmita Ghose 60 1 0 01 Jun 2023
Speech Self-Supervised Representation Benchmarking: Are We Doing it Right? Salah Zaiem Youcef Kemiche Titouan Parcollet S. Essid Mirco Ravanelli SSL 99 27 0 01 Jun 2023
MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models Yu-Hsiang Wang Huan Chen Kai-Wei Chang Winston H. Hsu Hung-yi Lee 115 7 0 30 May 2023
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings L. Serafini Samuele Cornell Giovanni Morrone Enrico Zovato Alessio Brutti S. Squartini 85 9 0 29 May 2023
MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations Calum Heggan Timothy M. Hospedales S. Budgett Mehrdad Yaghoobi SSL 88 5 0 29 May 2023
One-Step Knowledge Distillation and Fine-Tuning in Using Large Pre-Trained Self-Supervised Learning Models for Speaker Verification Ju-Sung Heo Chan-yeong Lim Ju-ho Kim Hyun-Seo Shin Ha-Jin Yu 63 2 0 27 May 2023
Weakly-Supervised Speech Pre-training: A Case Study on Target Speech Recognition Wangyou Zhang Y. Qian 89 11 0 25 May 2023
Visualizing data augmentation in deep speaker recognition Pengqi Li Lantian Li A. Hamdulla D. Wang 59 3 0 25 May 2023
CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person Recognition Lantian Li Xiaolou Li Haoyu Jiang Cheng Chen Ruihai Hou Dong Wang SLR 131 6 0 25 May 2023
Towards Solving Cocktail-Party: The First Method to Build a Realistic Dataset with Ground Truths for Speech Separation Rawad Melhem Assef Jafar Oumayma Al Dakkak 41 0 0 25 May 2023
P-vectors: A Parallel-Coupled TDNN/Transformer Network for Speaker Verification Xiyuan Wang Fangyuan Wang Bo Xu Liang Xu Jing Xiao 47 6 0 24 May 2023
On the Transferability of Whisper-based Representations for "In-the-Wild" Cross-Task Downstream Speech Applications Vamsikrishna Chemudupati Marzieh S. Tahaei Heitor R. Guimarães Arthur Pimentel Anderson R. Avila Mehdi Rezagholizadeh Boxing Chen Tiago H. Falk SSL 130 7 0 23 May 2023
QFA2SR: Query-Free Adversarial Transfer Attacks to Speaker Recognition Systems Guangke Chen Yedi Zhang Zhe Zhao Fu Song AAML 71 14 0 23 May 2023
SE-Bridge: Speech Enhancement with Consistent Brownian Bridge Zhibin Qiu Mengfan Fu Gang Hua G. Altenbek Hao Huang DiffM 82 5 0 23 May 2023
An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification Yafeng Chen Siqi Zheng Haibo Wang Luyao Cheng Qian Chen Jiajun Qi 89 46 0 22 May 2023
Progressive Sub-Graph Clustering Algorithm for Semi-Supervised Domain Adaptation Speaker Verification Zhuo Li Jingze Lu Z. Zhao Wenchao Wang Pengyuan Zhang 73 1 0 22 May 2023
The HCCL system for VoxCeleb Speaker Recognition Challenge 2022 Zhenduo Zhao Zhuo Li Wenchao Wang Pengyuan Zhang 59 4 0 22 May 2023
LPMM: Intuitive Pose Control for Neural Talking-Head Model via Landmark-Parameter Morphable Model K. Lee Patrick Kwon Myung Ki Lee Namhyuk Ahn Junsoo Lee 117 1 0 17 May 2023
Self-supervised Neural Factor Analysis for Disentangling Utterance-level Speech Representations Wei-wei Lin Chenhang He Man-Wai Mak Youzhi Tu 54 5 0 14 May 2023
WEIRD FAccTs: How Western, Educated, Industrialized, Rich, and Democratic is FAccT? Ali Akbar Septiandri Marios Constantinides Mohammad Tahaei Daniele Quercia 84 41 0 10 May 2023
DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head Video Generation Fa-Ting Hong Li Shen Dan Xu 3DH CVBM 73 17 0 10 May 2023
StyleSync: High-Fidelity Generalized and Personalized Lip Sync in Style-based Generator Jiazhi Guan Zhanwang Zhang Hang Zhou Tianshu Hu Kaisiyuan Wang ... Haocheng Feng Jingtuo Liu Errui Ding Ziwei Liu Jingdong Wang 131 64 0 09 May 2023
Multi-object Video Generation from Single Frame Layouts Yang Wu Zhi-Bin Liu Hefeng Wu Liang Lin 140 3 0 06 May 2023
Single-Shot Implicit Morphable Faces with Consistent Texture Parameterization Connor Z. Lin Koki Nagano Jan Kautz E. R. Chan Umar Iqbal Leonidas Guibas Gordon Wetzstein S. Khamis 3DH 52 14 0 04 May 2023
Multimodal-driven Talking Face Generation via a Unified Diffusion-based Generator Chao Xu Shaoting Zhu Junwei Zhu Alexander I. Rudnicky Jiangning Zhang Ying Tai Yong Liu DiffM 117 14 0 04 May 2023
Controllable One-Shot Face Video Synthesis With Semantic Aware Prior Kangning Liu Yu-Chuan Su Wei Weiheng Hong Ruijin Cang Xuhui Jia CVBM 82 2 0 27 Apr 2023
Self-Supervised Learning with Cluster-Aware-DINO for High-Performance Robust Speaker Verification Bing Han Zhengyang Chen Y. Qian 61 21 0 12 Apr 2023
One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance Field Weichuang Li Longhao Zhang Dong Wang Bingyan Zhao Zhigang Wang Mulin. Chen Bangze Zhang Zhongjian Wang Liefeng Bo Xuelong Li 3DH CVBM 84 56 0 11 Apr 2023
Certifiable Black-Box Attacks with Randomized Adversarial Examples: Breaking Defenses with Provable Confidence Hanbin Hong Xinyu Zhang Binghui Wang Zhongjie Ba Yuan Hong AAML 81 3 0 10 Apr 2023
Unsupervised Speech Representation Pooling Using Vector Quantization J. Park Kwanghee Choi Hyunjun Heo Hyung-Min Park SSL 48 0 0 08 Apr 2023
Benchmark Dataset Dynamics, Bias and Privacy Challenges in Voice Biometrics Research Casandra Rusti Anna Leschanowsky Carolyn Quinlan Michaela Pnacekova Lauriane Gorce W. Hutiri 71 2 0 07 Apr 2023
Margin-Mixup: A Method for Robust Speaker Verification in Multi-Speaker Audio Jenthe Thienpondt N. Madhu Kris Demuynck 56 4 0 07 Apr 2023