Cross-modal Embeddings for Video and Audio Retrieval

Cross-modal Embeddings for Video and Audio Retrieval

7 January 2018

Xavier Giró-i-Nieto

Papers citing "Cross-modal Embeddings for Video and Audio Retrieval"

15 / 15 papers shown

Title
Start from Video-Music Retrieval: An Inter-Intra Modal Loss for Cross Modal Retrieval Zeyu Chen Pengfei Zhang Kai Ye Wei Dong Xin Feng Yana Zhang 43 0 0 28 Jul 2024
Video-to-Music Recommendation using Temporal Alignment of Segments Laure Prétet G. Richard Clement Souchier Geoffroy Peeters AI4TS 37 13 0 12 Jun 2023
Noisy Correspondence Learning with Meta Similarity Correction Haocheng Han Kaiyao Miao Qinghua Zheng Minnan Luo 32 28 0 13 Apr 2023
VMCML: Video and Music Matching via Cross-Modality Lifting Yi-Shan Lee Wei-Cheng Tseng Fu-En Wang Min Sun 23 0 0 22 Mar 2023
Semantic Video Moments Retrieval at Scale: A New Task and a Baseline Na Li 26 0 0 15 Oct 2022
Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings Zhihuan Kuang Shi Zong Jianbing Zhang Jiajun Chen Hongfu Liu 30 4 0 02 Oct 2022
TVLT: Textless Vision-Language Transformer Zineng Tang Jaemin Cho Yixin Nie Joey Tianyi Zhou VLM 51 28 0 28 Sep 2022
Robust Sound-Guided Image Manipulation Seung Hyun Lee Gyeongrok Oh Wonmin Byeon Sang Ho Yoon Jinkyu Kim Sangpil Kim DiffM 26 7 0 30 Aug 2022
Learning in Audio-visual Context: A Review, Analysis, and New Perspective Yake Wei Di Hu Yapeng Tian Xuelong Li 46 55 0 20 Aug 2022
Debiased Cross-modal Matching for Content-based Micro-video Background Music Recommendation Jin Yi Zhenzhong Chen 41 1 0 07 Aug 2022
A Comprehensive Survey on Video Saliency Detection with Auditory Information: the Audio-visual Consistency Perceptual is the Key! Chenglizhao Chen Mengke Song Wenfeng Song Li Guo Muwei Jian 35 26 0 20 Jun 2022
Sound-Guided Semantic Image Manipulation Seung Hyun Lee Wonseok Roh Wonmin Byeon Sang Ho Yoon Chanyoung Kim Jinkyu Kim Sangpil Kim DiffM 30 43 0 30 Nov 2021
TriBERT: Full-body Human-centric Audio-visual Representation Learning for Visual Sound Separation Tanzila Rahman Mengyu Yang Leonid Sigal ViT 29 8 0 26 Oct 2021
Deep Audio-Visual Learning: A Survey Hao Zhu Mandi Luo Rui Wang A. Zheng Ran He 31 156 0 14 Jan 2020
Audio-Visual Event Localization in Unconstrained Videos Yapeng Tian Jing Shi Bochen Li Zhiyao Duan Chenliang Xu 36 425 0 23 Mar 2018