Towards Open-Vocabulary Audio-Visual Event Localization

18 November 2024

Papers citing "Towards Open-Vocabulary Audio-Visual Event Localization"

3 / 3 papers shown

Title
Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing Pengcheng Zhao Jinxing Zhou Yang Zhao D. Guo Yanxiang Chen 88 2 0 15 Dec 2024
Patch-level Sounding Object Tracking for Audio-Visual Question Answering Zhangbin Li Jinxing Zhou J. Zhang Shengeng Tang Kun Li D. Guo 83 4 0 14 Dec 2024
Audio-Visual Instance Segmentation Ruohao Guo Yaru Chen Yanyu Qi Wenzhen Yue Dantong Niu ... Wenzhen Yue Ji Shi Qixun Wang Peiliang Zhang Buwen Liang VLM VOS 28 2 0 28 Oct 2023