Text-Audio-Visual-conditioned Diffusion Model for Video Saliency Prediction

19 April 2025

Papers citing "Text-Audio-Visual-conditioned Diffusion Model for Video Saliency Prediction"

9 / 9 papers shown

Title
Few-shot Learner Parameterization by Diffusion Time-steps Zhongqi Yue Pan Zhou Richang Hong Hanwang Zhang Qianru Sun 103 12 0 05 Mar 2024
CASP-Net: Rethinking Video Saliency Prediction from an Audio-VisualConsistency Perceptual Perspective Jun Xiong Gang Wang Peng Zhang Wei Huang Yufei Zha Guangtao Zhai 50 14 0 11 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 432 4,656 0 30 Jan 2023
Temporal-Spatial Feature Pyramid for Video Saliency Detection Qinyao Chang Shiping Zhu 78 27 0 10 May 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.0K 29,926 0 26 Feb 2021
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 770 18,408 0 19 Jun 2020
STAViS: Spatio-Temporal AudioVisual Saliency Network A. Tsiami Petros Koutras Petros Maragos 93 73 0 09 Jan 2020
Revisiting Video Saliency: A Large-scale Benchmark and a New Model Wenguan Wang Jianbing Shen Fang Guo Ming-Ming Cheng Ali Borji VLM 55 266 0 23 Jan 2018
Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification Saining Xie Chen Sun Jonathan Huang Zhuowen Tu Kevin Patrick Murphy 3DH 155 1,333 0 13 Dec 2017