Audio-Visual Event Localization in Unconstrained Videos

23 March 2018

Yapeng Tian

Jing Shi

Bochen Li

Zhiyao Duan

Chenliang Xu

ArXiv (abs)PDF HTML

Papers citing "Audio-Visual Event Localization in Unconstrained Videos"

21 / 121 papers shown

Title
Visually Guided Sound Source Separation using Cascaded Opponent Filter Network Lingyu Zhu Esa Rahtu 103 23 0 04 Jun 2020
Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition Di Hu Xuhong Li Lichao Mou P. Jin Dong Chen L. Jing Xiaoxiang Zhu Dejing Dou 52 6 0 18 May 2020
VisualEchoes: Spatial Image Representation Learning through Echolocation Ruohan Gao Changan Chen Ziad Al-Halah Carl Schissler Kristen Grauman MDE SSL 233 84 0 04 May 2020
VGGSound: A Large-scale Audio-Visual Dataset Honglie Chen Weidi Xie Andrea Vedaldi Andrew Zisserman 110 583 0 29 Apr 2020
Semantic Object Prediction and Spatial Sound Super-Resolution with Binaural Sounds A. Vasudevan Dengxin Dai Luc Van Gool ObjD 138 45 0 09 Mar 2020
Deep Audio-Visual Learning: A Survey Hao Zhu Mandi Luo Rui Wang A. Zheng Ran He 75 161 0 14 Jan 2020
STAViS: Spatio-Temporal AudioVisual Saliency Network A. Tsiami Petros Koutras Petros Maragos 99 73 0 09 Jan 2020
SoundSpaces: Audio-Visual Navigation in 3D Environments Changan Chen Unnat Jain Carl Schissler S. V. A. Garí Ziad Al-Halah V. Ithapu Philip Robinson Kristen Grauman 104 26 0 24 Dec 2019
Listen to Look: Action Recognition by Previewing Audio Ruohan Gao Tae-Hyun Oh Kristen Grauman Lorenzo Torresani VLM 87 254 0 10 Dec 2019
Learning to Localize Sound Sources in Visual Scenes: Analysis and Applications Arda Senocak Tae-Hyun Oh Junsik Kim Ming-Hsuan Yang In So Kweon SSL 86 55 0 20 Nov 2019
Learning to Localize Temporal Events in Large-scale Video Data Mikel Bober-Irizar Miha Škalič David Austin 31 1 0 25 Oct 2019
A Case Study on Combining ASR and Visual Features for Generating Instructional Video Captions Jack Hessel Bo Pang Zhenhai Zhu Radu Soricut 98 37 0 07 Oct 2019
Learning to Have an Ear for Face Super-Resolution Givi Meishvili Simon Jenni Paolo Favaro SupR CVBM 89 23 0 27 Sep 2019
Deep Latent Space Learning for Cross-modal Mapping of Audio and Visual Signals Shah Nawaz Muhammad Kamran Janjua I. Gallo Arif Mahmood Alessandro Calefati 67 33 0 18 Sep 2019
Self-Supervised Audio-Visual Co-Segmentation Andrew Rouditchenko Hang Zhao Chuang Gan Josh H. McDermott Antonio Torralba VLM SSL 73 105 0 18 Apr 2019
Audio-Visual Model Distillation Using Acoustic Images Andrés F. Pérez Valentina Sanguineti Pietro Morerio Vittorio Murino VLM 60 27 0 16 Apr 2019
Co-Separating Sounds of Visual Objects Ruohan Gao Kristen Grauman 149 210 0 16 Apr 2019
Dual-modality seq2seq network for audio-visual event localization Yan-Bo Lin Yu-Jhe Li Y. Wang 71 131 0 20 Feb 2019
2.5D Visual Sound Ruohan Gao Kristen Grauman VGen 149 131 0 11 Dec 2018
An Attempt towards Interpretable Audio-Visual Video Captioning Yapeng Tian Chenxiao Guan Justin Goodman Marc Moore Chenliang Xu 91 20 0 07 Dec 2018
Identify, locate and separate: Audio-visual object extraction in large video collections using weak supervision Sanjeel Parekh A. Ozerov S. Essid Ngoc Q. K. Duong P. Pérez G. Richard 68 16 0 09 Nov 2018