STAViS: Spatio-Temporal AudioVisual Saliency Network

9 January 2020

Papers citing "STAViS: Spatio-Temporal AudioVisual Saliency Network"

37 / 37 papers shown

Title
Text-Audio-Visual-conditioned Diffusion Model for Video Saliency Prediction Li Yu Xuanzhe Sun Wei Zhou M. Gabbouj DiffM 29 0 0 19 Apr 2025
DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction Kiana Hoshanfar Alireza Hosseini Ahmad Kalhor Babak Nadjar Araabi 121 0 0 14 Apr 2025
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention Joe Dhanith Shravan Venkatraman Modigari Narendra Vigya Sharma Santhosh Malarvannan 74 0 0 20 Feb 2025
Relevance-guided Audio Visual Fusion for Video Saliency Prediction Li Yu Xuanzhe Sun Pan Gao M. Gabbouj 63 1 0 18 Nov 2024
CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion Yunlong Tang Gen Zhan Li Yang Yiting Liao Chenliang Xu VGen DiffM LRM 45 8 0 21 Aug 2024
How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and Model Yuxin Zhu Huiyu Duan Kaiwei Zhang Yucheng Zhu Xilei Zhu Long Teng Xiongkuo Min Guangtao Zhai 69 2 0 10 Aug 2024
Unified Dynamic Scanpath Predictors Outperform Individually Trained Neural Models Fares Abawi Di Fu Stefan Wermter 30 0 0 05 May 2024
DiffSal: Joint Audio and Video Learning for Diffusion Saliency Prediction Jun Xiong Peng Zhang Tao You Chuanyue Li Wei Huang Yufei Zha DiffM 27 5 0 02 Mar 2024
Audio-visual Saliency for Omnidirectional Videos Yuxin Zhu Xilei Zhu Huiyu Duan Jie Li Kaiwei Zhang Yucheng Zhu Li Chen Xiongkuo Min Guangtao Zhai 26 10 0 09 Nov 2023
CAD -- Contextual Multi-modal Alignment for Dynamic AVQA Asmar Nadeem Adrian Hilton R. Dawes Graham A. Thomas A. Mustafa 21 9 0 25 Oct 2023
UniST: Towards Unifying Saliency Transformer for Video Saliency Prediction and Detection Jun Xiong Peng Zhang Chuanyue Li Wei Huang Yufei Zha Tao You ViT 25 2 0 15 Sep 2023
NPF-200: A Multi-Modal Eye Fixation Dataset and Method for Non-Photorealistic Videos Ziyuan Yang Sucheng Ren Zongwei Wu Nanxuan Zhao Junle Wang Jing Qin Shengfeng He 30 2 0 23 Aug 2023
WinDB: HMD-free and Distortion-free Panoptic Video Fixation Learning Guotao Wang Chenglizhao Chen Aimin Hao Hong Qin Deng-Ping Fan 32 0 0 23 May 2023
ViDaS Video Depth-aware Saliency Network Ioanna Di̇amanti̇ A. Tsiami Petros Koutras Petros Maragos MDE 29 0 0 19 May 2023
Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation Bolin Lai Fiona Ryan Wenqi Jia Miao Liu James M. Rehg EgoV 19 8 0 06 May 2023
CASP-Net: Rethinking Video Saliency Prediction from an Audio-VisualConsistency Perceptual Perspective Jun Xiong Gang Wang Peng Zhang Wei Huang Yufei Zha Guangtao Zhai 21 14 0 11 Mar 2023
Panoramic Video Salient Object Detection with Ambisonic Audio Guidance Xiang Li H. Cao Shijie Zhao Junlin Li Li Zhang Bhiksha Raj 32 14 0 26 Nov 2022
Learning in Audio-visual Context: A Review, Analysis, and New Perspective Yake Wei Di Hu Yapeng Tian Xuelong Li 44 55 0 20 Aug 2022
Dual Domain-Adversarial Learning for Audio-Visual Saliency Prediction Ying Fan Longfei Han Yue Zhang Lechao Cheng Chenzhen Xia Di Hu SSL 13 1 0 10 Aug 2022
In the Eye of Transformer: Global-Local Correlation for Egocentric Gaze Estimation Bolin Lai Miao Liu Fiona Ryan James M. Rehg ViT 32 32 0 08 Aug 2022
A Comprehensive Survey on Video Saliency Detection with Auditory Information: the Audio-visual Consistency Perceptual is the Key! Chenglizhao Chen Mengke Song Wenfeng Song Li Guo Muwei Jian 33 25 0 20 Jun 2022
GASP: Gated Attention For Saliency Prediction Fares Abawi Tom Weber S. Wermter 14 6 0 09 Jun 2022
Learning Pixel-Level Distinctions for Video Highlight Detection Fanyue Wei Biao Wang T. Ge Yuning Jiang Wen Li Lixin Duan 11 19 0 10 Apr 2022
Audio-Visual Fusion Layers for Event Type Aware Video Recognition Arda Senocak Junsik Kim Tae-Hyun Oh H. Ryu Dingzeyu Li In So Kweon 11 1 0 12 Feb 2022
Weakly Supervised Visual-Auditory Fixation Prediction with Multigranularity Perception Guotao Wang Chenglizhao Chen Deng-Ping Fan Aimin Hao Hong Qin 12 2 0 27 Dec 2021
Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval Nina Shvetsova Brian Chen Andrew Rouditchenko Samuel Thomas Brian Kingsbury Rogerio Feris David F. Harwath James R. Glass Hilde Kuehne ViT 23 129 0 08 Dec 2021
Beyond Mono to Binaural: Generating Binaural Audio from Mono Audio with Depth and Cross Modal Attention Kranti K. Parida Siddharth Srivastava Gaurav Sharma MDE 31 20 0 15 Nov 2021
A trained humanoid robot can perform human-like crossmodal social attention and conflict resolution Di Fu Fares Abawi Hugo C. C. Carneiro Matthias Kerzel Ziwei Chen Erik Strahl Xun Liu S. Wermter 14 6 0 02 Nov 2021
MAAD: A Model and Dataset for "Attended Awareness" in Driving Deepak Gopinath Guy Rosman Simon Stent K. Terahata L. Fletcher B. Argall John J. Leonard 21 10 0 16 Oct 2021
Hierarchical Multimodal Transformer to Summarize Videos Bin Zhao Maoguo Gong Xuelong Li ViT 19 55 0 22 Sep 2021
Audio-Visual Collaborative Representation Learning for Dynamic Saliency Prediction Hailong Ning Bin Zhao Zhanxuan Hu Lang He Ercheng Pei 25 10 0 17 Sep 2021
ASOD60K: An Audio-Induced Salient Object Detection Dataset for Panoramic Videos Yi Zhang 13 7 0 24 Jul 2021
Multi-target DoA Estimation with an Audio-visual Fusion Mechanism Xinyuan Qian Maulik C. Madhavi Zexu Pan Jiadong Wang Haizhou Li 16 44 0 13 May 2021
Temporal-Spatial Feature Pyramid for Video Saliency Detection Qinyao Chang Shiping Zhu 35 27 0 10 May 2021
Beyond Image to Depth: Improving Depth Prediction using Echoes Kranti K. Parida Siddharth Srivastava Gaurav Sharma MDE 26 37 0 15 Mar 2021
ViNet: Pushing the limits of Visual Modality for Audio-Visual Saliency Prediction Samyak Jain P. Yarlagadda Shreyank Jyoti Shyamgopal Karthik Subramanian Ramanathan Vineet Gandhi ViT 26 65 0 11 Dec 2020
Light Field Salient Object Detection: A Review and Benchmark Keren Fu Yao Jiang Ge-Peng Ji Tao Zhou Qijun Zhao Deng-Ping Fan 18 69 0 10 Oct 2020