It's Time for Artistic Correspondence in Music and Video

14 June 2022

Carl Vondrick

Papers citing "It's Time for Artistic Correspondence in Music and Video"

27 / 27 papers shown

Title
A Survey on Cross-Modal Interaction Between Music and Multimodal Data Sifei Li Mining Tan Feier Shen Minyan Luo Zijiao Yin Fan Tang W. Dong Changsheng Xu 69 0 0 17 Apr 2025
FilmComposer: LLM-Driven Music Production for Silent Film Clips Zhifeng Xie Qile He Youjia Zhu Qiwei He Mengtian Li VGen 97 2 0 11 Mar 2025
HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization Zitang Zhou Ke Mei Yu Lu Tianyi Wang Fengyun Rao 91 2 0 03 Mar 2025
Augment, Drop & Swap: Improving Diversity in LLM Captions for Efficient Music-Text Representation Learning Ilaria Manco Justin Salamon Oriol Nieto 23 1 0 17 Sep 2024
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos Yan-Bo Lin Yu Tian L. Yang Gedas Bertasius Heng Wang VGen 34 7 0 11 Sep 2024
MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing Yu-Fen Huang Nikki Moran Simon Coleman Jon Kelly Shun-Hwa Wei ... Chih-Hsuan Li Da-Yu Huang Hsuan-Kai Kao Ting-Wei Lin Li Su 38 1 0 10 Jun 2024
MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding Jiajie Teng Huiyu Duan Yucheng Zhu Sijing Wu Guangtao Zhai 36 2 0 15 May 2024
BeatDance: A Beat-Based Model-Agnostic Contrastive Learning Framework for Music-Dance Retrieval Kaixing Yang Xukun Zhou Xulong Tang Ran Diao Hongyan Liu Jun He Zhaoxin Fan 24 1 0 16 Oct 2023
MuseChat: A Conversational Music Recommendation System for Videos Zhikang Dong Bin Chen Xiulong Liu Paweł Polak Peng Zhang LRM 42 26 0 10 Oct 2023
Emotion-Aligned Contrastive Learning Between Images and Music Shanti Stewart Kleanthis Avramidis Tiantian Feng Shrikanth Narayanan 19 0 0 24 Aug 2023
A Survey of AI Music Generation Tools and Models Yueyue Zhu Jared Baca Banafsheh Rekabdar Reza Rawassizadeh MGen 35 14 0 24 Aug 2023
Long-range Multimodal Pretraining for Movie Understanding Dawit Mureja Argaw Joon-Young Lee Markus Woodson In So Kweon Fabian Caba Heilbron VLM 30 7 0 18 Aug 2023
Bridging High-Quality Audio and Video via Language for Sound Effects Retrieval from Visual Queries J. Wilkins Justin Salamon Magdalena Fuentes J. P. Bello Oriol Nieto CLIP 14 5 0 17 Aug 2023
Language-Guided Music Recommendation for Video via Prompt Analogies Daniel McKee Justin Salamon Josef Sivic Bryan C. Russell VGen 30 26 0 15 Jun 2023
V2Meow: Meowing to the Visual Beat via Video-to-Music Generation Kun Su Judith Yue Li Qingqing Huang Dima Kuzmin Joonseok Lee ... Fei Sha A. Jansen Yu Wang Mauro Verzetti Timo I. Denk VGen 39 12 0 11 May 2023
Generative Disco: Text-to-Video Generation for Music Visualization Vivian Liu Tao Long Nathan Raw Lydia B. Chilton VGen 11 33 0 17 Apr 2023
Conditional Generation of Audio from Video via Foley Analogies Yuexi Du Ziyang Chen Justin Salamon Bryan C. Russell Andrew Owens VGen 17 38 0 17 Apr 2023
Audio-Text Models Do Not Yet Leverage Natural Language Ho-Hsiang Wu Oriol Nieto J. P. Bello Justin Salamon VLM 11 28 0 19 Mar 2023
Textless Speech-to-Music Retrieval Using Emotion Similarity Seungheon Doh Minz Won Keunwoo Choi Juhan Nam 22 2 0 19 Mar 2023
Video Background Music Generation: Dataset, Method and Evaluation Le Zhuo Zhaokai Wang Baisen Wang Yue Liao Chenxi Bao Stanley Peng Miao Lu Xiaobo Li Fei Fang Si Liu VGen 23 27 0 21 Nov 2022
On the Role of Visual Context in Enriching Music Representations Kleanthis Avramidis Shanti Stewart Shrikanth Narayanan 26 3 0 28 Oct 2022
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 332 5,785 0 29 Apr 2021
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Huayu Chen Boqing Gong ViT 248 577 0 22 Apr 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 280 1,982 0 09 Feb 2021
Video Transformer Network Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann ViT 204 422 0 01 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 424 596 0 21 Jul 2020
A Survey on Bias and Fairness in Machine Learning Ninareh Mehrabi Fred Morstatter N. Saxena Kristina Lerman Aram Galstyan SyDa FaML 323 4,212 0 23 Aug 2019