A Multi-View Embedding Space for Modeling Internet Images, Tags, and their Semantics

18 December 2012

Michael Isard

Papers citing "A Multi-View Embedding Space for Modeling Internet Images, Tags, and their Semantics"

50 / 135 papers shown

Title
Learning from Noisy Labels with Contrastive Co-Transformer Yan Han S. Roy Mehrtash Harandi L. Petersson NoLa 74 0 0 04 Mar 2025
Deep Learning for Multi-Label Learning: A Comprehensive Survey A. Tarekegn M. Ullah F. A. Cheikh AI4TS 40 8 0 29 Jan 2024
Hypothesis Testing for Class-Conditional Noise Using Local Maximum Likelihood Weisong Yang Rafael Poyiadzi Niall Twomey Raul Santos Rodriguez 22 0 0 15 Dec 2023
ALEX: Towards Effective Graph Transfer Learning with Noisy Labels Jingyang Yuan Xiao Luo Yifang Qin Zhengyan Mao Wei Ju Ming Zhang AAML 26 18 0 26 Sep 2023
Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval Yi Bin Haoxuan Li Yahui Xu Xing Xu Yang Yang Heng Tao Shen VOS 24 18 0 08 Aug 2023
Multi-Modal Machine Learning for Assessing Gaming Skills in Online Streaming: A Case Study with CS:GO Longxiang Zhang Wenping Wang 43 1 0 23 Jul 2023
CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive Learning Yiting Cheng Fangyun Wei Jianmin Bao Dong Chen Wenqian Zhang SLR 24 28 0 22 Mar 2023
Learning Visual Representations via Language-Guided Sampling Mohamed El Banani Karan Desai Justin Johnson SSL VLM 13 28 0 23 Feb 2023
Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities Khyathi Raghavi Chandu A. Geramifard 34 3 0 30 Oct 2022
Augmentation-Free Graph Contrastive Learning of Invariant-Discriminative Representations Haifeng Li Jun Cao Jiawei Zhu Qinyao Luo Silu He Xuying Wang 18 41 0 15 Oct 2022
LiveSeg: Unsupervised Multimodal Temporal Segmentation of Long Livestream Videos Jielin Qiu Franck Dernoncourt Trung Bui Zhaowen Wang Ding Zhao Hailin Jin AI4TS 17 5 0 12 Oct 2022
Can Brain Signals Reveal Inner Alignment with Human Languages? William Jongwon Han Jielin Qiu Jiacheng Zhu Mengdi Xu Douglas Weber Bo-wen Li Ding Zhao 14 12 0 10 Aug 2022
Temporal Alignment Networks for Long-term Video Tengda Han Weidi Xie Andrew Zisserman AI4TS 20 82 0 06 Apr 2022
Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos Tomávs Souvcek Jean-Baptiste Alayrac Antoine Miech Ivan Laptev Josef Sivic 21 32 0 22 Mar 2022
Two-stream Hierarchical Similarity Reasoning for Image-text Matching Ran Chen Hanli Wang Lei Wang Sam Kwong 13 9 0 10 Mar 2022
Contrastive Learning of Visual-Semantic Embeddings Anurag Jain Yashaswi Verma SSL 25 1 0 17 Oct 2021
Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss Xingyi Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen 6 148 0 09 Sep 2021
On Support Recovery with Sparse CCA: Information Theoretic and Computational Limits Nilanjana Laha Rajarshi Mukherjee 31 4 0 14 Aug 2021
A Survey on Personal Image Retrieval Systems Amit Kumar Nath Andy Wang 25 0 0 09 Jul 2021
From Canonical Correlation Analysis to Self-supervised Graph Neural Networks Hengrui Zhang Qitian Wu Junchi Yan David Wipf Philip S. Yu SSL 22 210 0 23 Jun 2021
Understanding Latent Correlation-Based Multiview Learning and Self-Supervision: An Identifiability Perspective Qinjie Lyu Xiao Fu Weiran Wang Songtao Lu SSL 20 29 0 14 Jun 2021
FDDH: Fast Discriminative Discrete Hashing for Large-Scale Cross-Modal Retrieval Xin Liu Xingzhi Wang Y. Cheung 18 41 0 15 May 2021
Towards General Purpose Vision Systems Tanmay Gupta Amita Kamath Aniruddha Kembhavi Derek Hoiem 11 49 0 01 Apr 2021
Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers Antoine Miech Jean-Baptiste Alayrac Ivan Laptev Josef Sivic Andrew Zisserman ViT 20 136 0 30 Mar 2021
Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers Lisa Anne Hendricks John F. J. Mellor R. Schneider Jean-Baptiste Alayrac Aida Nematzadeh 79 110 0 31 Jan 2021
Image-to-Image Retrieval by Learning Similarity between Scene Graphs Sangwoong Yoon Woo-Young Kang Sungwook Jeon SeongEun Lee C. Han Jonghun Park Eun-Sol Kim 3DH 29 39 0 29 Dec 2020
The Geometry of Distributed Representations for Better Alignment, Attenuated Bias, and Improved Interpretability Sunipa Dev 27 1 0 25 Nov 2020
Suppressing Mislabeled Data via Grouping and Self-Attention Xiaojiang Peng Kai Wang Zhaoyang Zeng Qing Li Jianfei Yang Yu Qiao 11 32 0 29 Oct 2020
Learning to Represent Image and Text with Denotation Graph Bowen Zhang Hexiang Hu Vihan Jain Eugene Ie Fei Sha 6 21 0 06 Oct 2020
Cross-Modal Hierarchical Modelling for Fine-Grained Sketch Based Image Retrieval Aneeshan Sain A. Bhunia Yongxin Yang Tao Xiang Yi-Zhe Song 16 49 0 29 Jul 2020
Learning Video Representations from Textual Web Supervision Jonathan C. Stroud Zhichao Lu Chen Sun Jia Deng Rahul Sukthankar Cordelia Schmid David A. Ross SSL 29 48 0 29 Jul 2020
Deep Learning Techniques for Future Intelligent Cross-Media Retrieval S. Rehman M. Waqas Shanshan Tu Anis Koubaa O. Rehman Jawad Ahmad Muhammad Hanif Zhu Han 11 6 0 21 Jul 2020
COBE: Contextualized Object Embeddings from Narrated Instructional Video Gedas Bertasius Lorenzo Torresani 8 24 0 14 Jul 2020
Embedded Deep Bilinear Interactive Information and Selective Fusion for Multi-view Learning Jinglin Xu Wenbin Li J. Shen Xinwang Liu Peicheng Zhou Xiangsen Zhang Xiwen Yao Junwei Han 18 1 0 13 Jul 2020
Self-Supervised MultiModal Versatile Networks Jean-Baptiste Alayrac Adrià Recasens R. Schneider Relja Arandjelović Jason Ramapuram J. Fauw Lucas Smaira Sander Dieleman Andrew Zisserman SSL 40 371 0 29 Jun 2020
Learning Multi-Modal Nonlinear Embeddings: Performance Bounds and an Algorithm Semih Kaya Elif Vural 6 3 0 03 Jun 2020
COBRA: Contrastive Bi-Modal Representation Algorithm Vishaal Udandarao A. Maiti Deepak Srivatsav Suryatej Reddy Vyalla Yifang Yin R. Shah 17 21 0 07 May 2020
Zero-Shot Learning and its Applications from Autonomous Vehicles to COVID-19 Diagnosis: A Review Mahdi Rezaei Mahsa Shahidi 21 53 0 29 Apr 2020
Survey on Visual Sentiment Analysis A. Ortis G. Farinella S. Battiato 8 75 0 24 Apr 2020
Multiple Visual-Semantic Embedding for Video Retrieval from Query Sentence Huy Manh Nguyen Tomo Miyazaki Yoshihiro Sugaya S. Omachi 42 1 0 16 Apr 2020
MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images with Latent Variable Model Han Fu R. Wu Chenghao Liu Jianling Sun 8 48 0 02 Apr 2020
Adversarial Learning for Personalized Tag Recommendation Erik Quintanilla Y. S. Rawat Andrey Sakryukin M. Shah Mohan S. Kankanhalli VLM 6 21 0 01 Apr 2020
Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension Zhenfang Chen Peng Wang Lin Ma Kwan-Yee Kenneth Wong Qi Wu ObjD 26 67 0 01 Mar 2020
End-to-End Learning of Visual Representations from Uncurated Instructional Videos Antoine Miech Jean-Baptiste Alayrac Lucas Smaira Ivan Laptev Josef Sivic Andrew Zisserman VGen SSL 31 700 0 13 Dec 2019
Ladder Loss for Coherent Visual-Semantic Embedding Mo Zhou Zhenxing Niu Le Wang Zhanning Gao Qilin Zhang G. Hua 20 39 0 18 Nov 2019
HUSE: Hierarchical Universal Semantic Embeddings P. Narayana Aniket Pednekar A. Krishnamoorthy Kazoo Sone Sugato Basu 23 10 0 14 Nov 2019
Cross-Modal Subspace Learning with Scheduled Adaptive Margin Constraints David Semedo João Magalhães 11 11 0 30 Sep 2019
Harmonized Multimodal Learning with Gaussian Process Latent Variable Models Guoli Song Shuhui Wang Qingming Huang Q. Tian 8 22 0 14 Aug 2019
Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval Yale Song M. Soleymani 13 242 0 11 Jun 2019
HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev Josef Sivic VGen 25 1,172 0 07 Jun 2019