Cross-modal Embeddings for Video and Audio Retrieval

7 January 2018

Papers citing "Cross-modal Embeddings for Video and Audio Retrieval"

7 / 7 papers shown

Title
Multimodal Deep Learning Cem Akkus Jiquan Ngiam Vladana Djakovic Steffen Jauch-Walser A. Khosla ... Jann Goschenhofer Honglak Lee A. Ng Daniel Schalk Matthias Aßenmacher 115 3,174 0 12 Jan 2023
See, Hear, and Read: Deep Aligned Representations Y. Aytar Carl Vondrick Antonio Torralba VLM AI4TS 92 136 0 03 Jun 2017
CNN Architectures for Large-Scale Audio Classification Shawn Hershey Sourish Chaudhuri D. Ellis J. Gemmeke A. Jansen ... Rif A. Saurous Bryan Seybold M. Slaney Ron J. Weiss K. Wilson 123 2,500 0 29 Sep 2016
YouTube-8M: A Large-Scale Video Classification Benchmark Sami Abu-El-Haija Nisarg Kothari Joonseok Lee Apostol Natsev G. Toderici Balakrishnan Varadarajan Sudheendra Vijayanarasimhan VLM 151 1,270 0 27 Sep 2016
TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems Martín Abadi Ashish Agarwal P. Barham E. Brevdo Zhiwen Chen ... Pete Warden Martin Wattenberg Martin Wicke Yuan Yu Xiaoqiang Zheng 274 11,151 0 14 Mar 2016
Learning Deep Structure-Preserving Image-Text Embeddings Liwei Wang Yin Li Svetlana Lazebnik 83 781 0 19 Nov 2015
Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models Ryan Kiros Ruslan Salakhutdinov R. Zemel VLM 125 1,399 0 10 Nov 2014