Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder

15 April 2024

Papers citing "Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder"

2 / 2 papers shown

Title
Self-Supervised Training of Speaker Encoder with Multi-Modal Diverse Positive Pairs Ruijie Tao Kong Aik Lee Rohan Kumar Das Ville Hautamaki Haizhou Li SSL 29 8 0 27 Oct 2022
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 251 2,233 0 14 Jun 2018