Multimodal Variational Auto-encoder based Audio-Visual Segmentation

Multimodal Variational Auto-encoder based Audio-Visual Segmentation

12 October 2023

Yuchao Dai

ArXiv (abs)PDF HTML

Papers citing "Multimodal Variational Auto-encoder based Audio-Visual Segmentation"

7 / 7 papers shown

Title
AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting Yuyuan Liu Yuanhong Chen Chong Wang Junlin Han Junde Wu Can Peng Jingkun Chen Yu Tian Gustavo Carneiro VLM 49 0 0 01 Jun 2025
Towards Open-Vocabulary Audio-Visual Event Localization Jinxing Zhou Dan Guo Ruohao Guo Yuxin Mao Jingjing Hu Yiran Zhong Xiaojun Chang Ming Wang VLM 127 5 0 18 Nov 2024
Object-aware Adaptive-Positivity Learning for Audio-Visual Question Answering Zhangbin Li Dan Guo Jinxing Zhou Jing Zhang Meng Wang 106 15 0 20 Dec 2023
Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling Shentong Mo Pedro Morgado 80 14 0 02 Dec 2023
Audio-Visual Instance Segmentation Ruohao Guo Yaru Chen Yanyu Qi Wenzhen Yue Dantong Niu ... Wenzhen Yue Ji Shi Qixun Wang Peiliang Zhang Buwen Liang VLM VOS 125 2 0 28 Oct 2023
Contrastive Conditional Latent Diffusion for Audio-visual Segmentation Yuxin Mao Jing Zhang Mochu Xiang Yun-Qiu Lv Dong Li Yiran Zhong Yuchao Dai DiffM 133 29 0 31 Jul 2023
Generative Transformer for Accurate and Reliable Salient Object Detection Yuxin Mao Jing Zhang Zhexiong Wan Yuchao Dai Aixuan Li Yun-Qiu Lv Xinyu Tian Deng-Ping Fan Nick Barnes ViT 157 34 0 20 Apr 2021