PolyViT: Co-training Vision Transformers on Images, Videos and Audio

25 November 2021

Valerii Likhosherstov

Papers citing "PolyViT: Co-training Vision Transformers on Images, Videos and Audio"

26 / 76 papers shown

Title
Multi-Task Learning as Multi-Objective Optimization Ozan Sener V. Koltun 161 1,282 0 10 Oct 2018
The Natural Language Decathlon: Multitask Learning as Question Answering Bryan McCann N. Keskar Caiming Xiong R. Socher AIMat MLLM BDL 135 644 0 20 Jun 2018
Taskonomy: Disentangling Task Transfer Learning Amir Zamir Alexander Sax Bokui (William) Shen Leonidas Guibas Jitendra Malik Silvio Savarese 118 1,218 0 23 Apr 2018
Temporal Relational Reasoning in Videos Bolei Zhou A. Andonian Aude Oliva Antonio Torralba NAI 96 1,039 0 22 Nov 2017
Non-local Neural Networks Xinyu Wang Ross B. Girshick Abhinav Gupta Kaiming He OffRL 289 8,905 0 21 Nov 2017
GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks Zhao Chen Vijay Badrinarayanan Chen-Yu Lee Andrew Rabinovich ODL 160 1,284 0 07 Nov 2017
mixup: Beyond Empirical Risk Minimization Hongyi Zhang Moustapha Cissé Yann N. Dauphin David Lopez-Paz NoLa 278 9,760 0 25 Oct 2017
Revisiting Unreasonable Effectiveness of Data in Deep Learning Era Chen Sun Abhinav Shrivastava Saurabh Singh Abhinav Gupta VLM 185 2,398 0 10 Jul 2017
One Model To Learn Them All Lukasz Kaiser Aidan Gomez Noam M. Shazeer Ashish Vaswani Niki Parmar Llion Jones Jakob Uszkoreit VLM ViT 77 334 0 16 Jun 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 690 131,526 0 12 Jun 2017
Self-Normalizing Neural Networks Günter Klambauer Thomas Unterthiner Andreas Mayr Sepp Hochreiter 454 2,511 0 08 Jun 2017
Learning multiple visual domains with residual adapters Sylvestre-Alvise Rebuffi Hakan Bilen Andrea Vedaldi OOD 160 933 0 22 May 2017
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 232 8,015 0 22 May 2017
Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics Alex Kendall Y. Gal R. Cipolla 3DH 272 3,122 0 19 May 2017
The Kinetics Human Action Video Dataset W. Kay João Carreira Karen Simonyan Brian Zhang Chloe Hillier ... Tim Green T. Back Apostol Natsev Mustafa Suleyman Andrew Zisserman 250 3,802 0 19 May 2017
Mask R-CNN Kaiming He Georgia Gkioxari Piotr Dollár Ross B. Girshick ObjD 350 27,181 0 20 Mar 2017
Overcoming catastrophic forgetting in neural networks J. Kirkpatrick Razvan Pascanu Neil C. Rabinowitz J. Veness Guillaume Desjardins ... A. Grabska-Barwinska Demis Hassabis Claudia Clopath D. Kumaran R. Hadsell CLL 357 7,504 0 02 Dec 2016
UberNet: Training a `Universal' Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory Iasonas Kokkinos SSeg SSL 130 673 0 07 Sep 2016
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Limin Wang Yuanjun Xiong Zhe Wang Yu Qiao Dahua Lin Xiaoou Tang Luc Van Gool ViT 102 3,833 0 02 Aug 2016
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 410 10,482 0 21 Jul 2016
Cross-stitch Networks for Multi-task Learning Ishan Misra Abhinav Shrivastava Abhinav Gupta M. Hebert 87 1,347 0 12 Apr 2016
Deep Networks with Stochastic Depth Gao Huang Yu Sun Zhuang Liu Daniel Sedra Kilian Q. Weinberger 212 2,356 0 30 Mar 2016
SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size F. Iandola Song Han Matthew W. Moskewicz Khalid Ashraf W. Dally Kurt Keutzer 150 7,482 0 24 Feb 2016
Deep Fried Convnets Zichao Yang Marcin Moczulski Misha Denil Nando de Freitas Alex Smola Le Song Ziyu Wang 97 267 0 22 Dec 2014
Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture David Eigen Rob Fergus VLM MDE 207 2,679 0 18 Nov 2014
Rich feature hierarchies for accurate object detection and semantic segmentation Ross B. Girshick Jeff Donahue Trevor Darrell Jitendra Malik ObjD 289 26,186 0 11 Nov 2013