A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition

30 May 2023

Shentong Mo

Papers citing "A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition"

20 / 20 papers shown

Title
DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap Shentong Mo Zehua Chen Fan Bao Jun-Jie Zhu DiffM 50 0 0 15 Mar 2025
Adaptive Perception for Unified Visual Multi-modal Object Tracking Xiantao Hu Bineng Zhong Qihua Liang Zhiyi Mo Liangtao Shi Ying Tai Jian Yang 38 1 0 10 Feb 2025
Model-Driven Deep Neural Network for Enhanced AoA Estimation Using 5G gNB Shengheng Liu Xingkang Li Zihuan Mao Peng Liu Yongming Huang 67 5 0 03 Jan 2025
SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera Yuhang He Sangyun Shin Anoop Cherian Niki Trigoni Andrew Markham 78 0 0 31 Dec 2024
Aligning Audio-Visual Joint Representations with an Agentic Workflow Shentong Mo Yibing Song 25 0 0 30 Oct 2024
Multi-scale Multi-instance Visual Sound Localization and Segmentation Shentong Mo Haofan Wang 33 2 0 31 Aug 2024
Prior-free Balanced Replay: Uncertainty-guided Reservoir Sampling for Long-Tailed Continual Learning Lei Liu Li Liu Yawen Cui CLL 27 0 0 27 Aug 2024
Global-Local Distillation Network-Based Audio-Visual Speaker Tracking with Incomplete Modalities Yidi Li Yihan Li Yixin Guo Bin Ren Zhenhuan Xu Hao Guo Hong Liu N. Sebe 47 0 0 26 Aug 2024
Audio-visual Generalized Zero-shot Learning the Easy Way Shentong Mo Pedro Morgado 33 5 0 18 Jul 2024
Semantic Grouping Network for Audio Source Separation Shentong Mo Yapeng Tian 36 4 0 04 Jul 2024
Unified Video-Language Pre-training with Synchronized Audio Shentong Mo Haofan Wang Huaxia Li Xu Tang 35 2 0 12 May 2024
Siamese Vision Transformers are Scalable Audio-visual Learners Yan-Bo Lin Gedas Bertasius 37 5 0 28 Mar 2024
Text-to-Audio Generation Synchronized with Videos Shentong Mo Jing Shi Yapeng Tian DiffM VGen 39 17 0 08 Mar 2024
Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling Shentong Mo Pedro Morgado 21 13 0 02 Dec 2023
Weakly-Supervised Audio-Visual Segmentation Shentong Mo Bhiksha Raj VOS 43 12 0 25 Nov 2023
Class-Incremental Grouping Network for Continual Audio-Visual Learning Shentong Mo Weiguo Pian Yapeng Tian CLL VLM 37 23 0 11 Sep 2023
Audio-Visual Class-Incremental Learning Weiguo Pian Shentong Mo Yunhui Guo Yapeng Tian CLL VLM 33 28 0 21 Aug 2023
AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation Shentong Mo Yapeng Tian VLM 87 49 0 03 May 2023
A Closer Look at Weakly-Supervised Audio-Visual Source Localization Shentong Mo Pedro Morgado 83 64 0 30 Aug 2022
Audiovisual SlowFast Networks for Video Recognition Fanyi Xiao Yong Jae Lee Kristen Grauman Jitendra Malik Christoph Feichtenhofer 197 206 0 23 Jan 2020