Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer

13 September 2023

Xi Li

Papers citing "Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer"

22 / 22 papers shown

Title
Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics Chen Liu Liying Yang Peike Li Dadong Wang Lincheng Li Xin Yu VOS 99 0 0 17 Mar 2025
Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation Henghui Du Guangyao Li Chang Zhou Chunjie Zhang Alan Zhao D. Hu 56 0 0 17 Mar 2025
Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment Chen Liu Peike Li Liying Yang Dadong Wang Lincheng Li Xin Yu VOS 65 0 0 17 Mar 2025
Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation Shaofei Huang Rui Ling Hongyu Li Tianrui Hui Zongheng Tang Xiaoming Wei Jizhong Han Si Liu VOS 37 4 0 28 Aug 2024
Open-Vocabulary Audio-Visual Semantic Segmentation Zhenghao Zhang Junchao Liao Dantong Niu Yanyu Qi Menghao Li Ji Shi Bowei Xing Xianghua Ying VOS VLM 34 7 0 31 Jul 2024
Segment Anything for Videos: A Systematic Survey Chunhui Zhang Yawen Cui Weilin Lin Guanjie Huang Yan Rong Li Liu Shiguang Shan VLM 44 6 0 31 Jul 2024
Boosting Audio Visual Question Answering via Key Semantic-Aware Cues Guangyao Li Henghui Du Di Hu 24 4 0 30 Jul 2024
Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation Juncheng Ma Peiwen Sun Yaoting Wang Di Hu VOS 52 7 0 16 Jul 2024
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes Yaoting Wang Peiwen Sun Dongzhan Zhou Guangyao Li Honggang Zhang Di Hu VOS 40 5 0 15 Jul 2024
Can Textual Semantics Mitigate Sounding Object Segmentation Preference? Yaoting Wang Peiwen Sun Yuanchao Li Honggang Zhang Di Hu 43 5 0 15 Jul 2024
CPM: Class-conditional Prompting Machine for Audio-visual Segmentation Yuanhong Chen Chong Wang Yuyuan Liu Hu Wang Gustavo Carneiro 40 2 0 07 Jul 2024
SAVE: Segment Audio-Visual Easy way using Segment Anything Model Khanh-Binh Nguyen Chae Jung Park VLM VOS 42 1 0 02 Jul 2024
Multi-modal Transfer Learning between Biological Foundation Models Juan Jose Garau-Luis Patrick Bordes Liam Gonzalez Masa Roller Bernardo P. de Almeida ... Stefan Laurent Jan Grzegorzewski Maren Lang Thomas Pierrot Guillaume Richard AI4CE 41 3 0 20 Jun 2024
Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation Juhyeong Seon Woobin Im Sebin Lee Jumin Lee Sung-eui Yoon 37 1 0 10 Jun 2024
Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation Qi Yang Xing Nie Tong Li Pengfei Gao Ying Guo Cheng Zhen Pengfei Yan Shiming Xiang VOS 34 13 0 11 Dec 2023
A Survey on Segment Anything Model (SAM): Vision Foundation Model Meets Prompt Engineering Chaoning Zhang Fachrina Dewi Puspitasari Sheng Zheng Chenghao Li Yu Qiao ... Caiyan Qin François Rameau Lik-Hang Lee Sung-Ho Bae Choong Seon Hong VLM 81 62 0 12 May 2023
AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation Shentong Mo Yapeng Tian VLM 84 49 0 03 May 2023
Foundation Models for Decision Making: Problems, Methods, and Opportunities Sherry Yang Ofir Nachum Yilun Du Jason W. Wei Pieter Abbeel Dale Schuurmans LM&Ro OffRL LRM AI4CE 90 155 0 07 Mar 2023
Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models Manli Shu Weili Nie De-An Huang Zhiding Yu Tom Goldstein Anima Anandkumar Chaowei Xiao VLM VPVLM 186 282 0 15 Sep 2022
A Closer Look at Weakly-Supervised Audio-Visual Source Localization Shentong Mo Pedro Morgado 83 64 0 30 Aug 2022
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 280 3,848 0 18 Apr 2021
Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference Timo Schick Hinrich Schütze 258 1,588 0 21 Jan 2020