Audio-Visual Instance Discrimination with Cross-Modal Agreement

27 April 2020

Papers citing "Audio-Visual Instance Discrimination with Cross-Modal Agreement"

21 / 71 papers shown

Title
Divide and Contrast: Self-supervised Learning from Uncurated Data Yonglong Tian Olivier J. Hénaff Aaron van den Oord SSL 64 96 0 17 May 2021
A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning Christoph Feichtenhofer Haoqi Fan Bo Xiong Ross B. Girshick Kaiming He SSL AI4TS 39 257 0 29 Apr 2021
Joint Representation Learning and Novel Category Discovery on Single- and Multi-modal Data Xu Jia Kai Han Yukun Zhu Bradley Green 152 57 0 26 Apr 2021
Visually Informed Binaural Audio Generation without Binaural Audios Xudong Xu Hang Zhou Ziwei Liu Bo Dai Xiaogang Wang Dahua Lin DiffM 13 55 0 13 Apr 2021
Task-Independent Knowledge Makes for Transferable Representations for Generalized Zero-Shot Learning Chaoqun Wang Xuejin Chen Shaobo Min Xiaoyan Sun Houqiang Li VLM 26 18 0 05 Apr 2021
Cross-Modal learning for Audio-Visual Video Parsing Jatin Lamba Abhishek Jayaprakash Akula Rishabh Dabral P. Jyothi Ganesh Ramakrishnan 13 7 0 03 Apr 2021
Multiview Pseudo-Labeling for Semi-supervised Learning from Video Bo Xiong Haoqi Fan Kristen Grauman Christoph Feichtenhofer SSL 22 49 0 01 Apr 2021
Composable Augmentation Encoding for Video Representation Learning Chen Sun Arsha Nagrani Yonglong Tian Cordelia Schmid SSL AI4TS 37 17 0 01 Apr 2021
Unsupervised Sound Localization via Iterative Contrastive Learning Yan-Bo Lin Hung-Yu Tseng Hsin-Ying Lee Yen-Yu Lin Ming-Hsuan Yang SSL 27 34 0 01 Apr 2021
Broaden Your Views for Self-Supervised Video Learning Adrià Recasens Pauline Luc Jean-Baptiste Alayrac Luyu Wang Ross Hemsley ... Florent Altché M. Valko Jean-Bastien Grill Aaron van den Oord Andrew Zisserman SSL AI4TS 33 127 0 30 Mar 2021
Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning Mandela Patrick Yuki M. Asano Bernie Huang Ishan Misra Florian Metze Joao Henriques Andrea Vedaldi AI4TS 29 33 0 18 Mar 2021
Cross-Modal Contrastive Learning for Text-to-Image Generation Han Zhang Jing Yu Koh Jason Baldridge Honglak Lee Yinfei Yang GAN 22 355 0 12 Jan 2021
Self-Supervised Pretraining of 3D Features on any Point-Cloud Zaiwei Zhang Rohit Girdhar Armand Joulin Ishan Misra 3DPC 126 268 0 07 Jan 2021
A Comprehensive Study of Deep Video Action Recognition Yi Zhu Xinyu Li Chunhui Liu Mohammadreza Zolfaghari Yuanjun Xiong Chongruo Wu Zhi-Li Zhang Joseph Tighe R. Manmatha Mu Li VLM AI4TS 38 185 0 11 Dec 2020
Learning Representations from Audio-Visual Spatial Alignment Pedro Morgado Yi Li Nuno Vasconcelos SSL 27 121 0 03 Nov 2020
Self-supervised Co-training for Video Representation Learning Tengda Han Weidi Xie Andrew Zisserman SSL 215 309 0 19 Oct 2020
Delving into Inter-Image Invariance for Unsupervised Visual Representations Jiahao Xie Xiaohang Zhan Ziwei Liu Yew-Soon Ong Chen Change Loy SSL VLM 21 58 0 26 Aug 2020
Learning Speech Representations from Raw Audio by Joint Audiovisual Self-Supervision Abhinav Shukla Stavros Petridis M. Pantic SSL 32 16 0 08 Jul 2020
Self-Supervised MultiModal Versatile Networks Jean-Baptiste Alayrac Adrià Recasens R. Schneider Relja Arandjelović Jason Ramapuram J. Fauw Lucas Smaira Sander Dieleman Andrew Zisserman SSL 40 371 0 29 Jun 2020
What Makes for Good Views for Contrastive Learning? Yonglong Tian Chen Sun Ben Poole Dilip Krishnan Cordelia Schmid Phillip Isola SSL 39 1,307 0 20 May 2020
Does Visual Self-Supervision Improve Learning of Speech Representations for Emotion Recognition? Abhinav Shukla Stavros Petridis M. Pantic SSL 32 28 0 04 May 2020