v1v2 (latest)

Emerging Properties in Self-Supervised Vision Transformers

29 April 2021

Papers citing "Emerging Properties in Self-Supervised Vision Transformers"

50 / 4,175 papers shown

Title
Zorro: the masked multimodal transformer Adrià Recasens Jason Lin João Carreira Drew Jaegle Luyu Wang ... Pauline Luc Antoine Miech Lucas Smaira Ross Hemsley Andrew Zisserman 92 21 0 23 Jan 2023
StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis Axel Sauer Tero Karras S. Laine Andreas Geiger Timo Aila 96 219 0 23 Jan 2023
A Simple Recipe for Competitive Low-compute Self supervised Vision Models Quentin Duval Ishan Misra Nicolas Ballas 70 9 0 23 Jan 2023
Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision Jilan Xu Junlin Hou Yuejie Zhang Rui Feng Yi Wang Yu Qiao Weidi Xie VLM 84 87 0 22 Jan 2023
Open-Set Likelihood Maximization for Few-Shot Learning Malik Boudiaf Etienne Bennequin Myriam Tami Antoine Toubhans Pablo Piantanida C´eline Hudelot Ismail Ben Ayed BDL 125 10 0 20 Jan 2023
Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture Mahmoud Assran Quentin Duval Ishan Misra Piotr Bojanowski Pascal Vincent Michael G. Rabbat Yann LeCun Nicolas Ballas SSL AI4TS MDE 143 362 0 19 Jan 2023
MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer Junde Wu Rao Fu Huihui Fang Min Xu Yu Zhang Yanwu Xu DiffM MedIm 113 174 0 19 Jan 2023
Masked Autoencoding Does Not Help Natural Language Supervision at Scale Floris Weers Vaishaal Shankar Angelos Katharopoulos Yinfei Yang Tom Gunter CLIP 54 5 0 19 Jan 2023
CLIPTER: Looking at the Bigger Picture in Scene Text Recognition Aviad Aberdam David Bensaid Alona Golts Roy Ganz Oren Nuriel Royee Tichauer Shai Mazor Ron Litman VLM CLIP 90 13 0 18 Jan 2023
PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav Ram Ramrakhya Dhruv Batra Erik Wijmans Abhishek Das OffRL 148 61 0 18 Jan 2023
Learning Customized Visual Models with Retrieval-Augmented Knowledge Haotian Liu Kilho Son Jianwei Yang Ce Liu Jianfeng Gao Yong Jae Lee Chunyuan Li VLM 129 56 0 17 Jan 2023
RILS: Masked Visual Reconstruction in Language Semantic Space Shusheng Yang Yixiao Ge Kun Yi Dian Li Ying Shan Xiaohu Qie Xinggang Wang CLIP 95 11 0 17 Jan 2023
Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models Zhiqiu Lin Samuel Yu Zhiyi Kuang Deepak Pathak Deva Ramana VLM 152 117 0 16 Jan 2023
RxRx1: A Dataset for Evaluating Experimental Batch Correction Methods Maciej Sypetkowski Morteza Rezanejad Saber Saberian Oren Z. Kraus John Urbanik ... Mason L. Victors J. Yosinski A. R. Sereshkeh I. Haque Berton Earnshaw 93 38 0 13 Jan 2023
A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends Jie Gui Tuo Chen Jing Zhang Qiong Cao Zhe Sun Haoran Luo Dacheng Tao 232 161 0 13 Jan 2023
CLIP the Gap: A Single Domain Generalization Approach for Object Detection Vidit Vidit Martin Engilberge Mathieu Salzmann VLM ObjD 93 83 0 13 Jan 2023
It's Just a Matter of Time: Detecting Depression with Time-Enriched Multimodal Transformers Ana-Maria Bucur Adrian Cosma Paolo Rosso Liviu P. Dinu 84 34 0 13 Jan 2023
Self-Supervised Image-to-Point Distillation via Semantically Tolerant Contrastive Loss Anas Mahmoud Jordan S. K. Hu Tianshu Kuai Ali Harakeh Liam Paull Steven L. Waslander 3DPC SSL 87 29 0 12 Jan 2023
Learning to Summarize Videos by Contrasting Clips Ivan Sosnovik A. Moskalev Cees Kaandorp A. Smeulders 62 0 0 12 Jan 2023
SemPPL: Predicting pseudo-labels for better contrastive representations Matko Bovsnjak Pierre Harvey Richemond Nenad Tomašev Florian Strub Jacob Walker Felix Hill Lars Buesing Razvan Pascanu Charles Blundell Jovana Mitrović SSL VLM 101 9 0 12 Jan 2023
Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks Xinsong Zhang Yan Zeng Jipeng Zhang Hang Li VLM AI4CE LRM 122 17 0 12 Jan 2023
Vision Transformers Are Good Mask Auto-Labelers Shiyi Lan Xitong Yang Zhiding Yu Zuxuan Wu J. Álvarez Anima Anandkumar ISeg ViT MedIm 95 19 0 10 Jan 2023
CDA: Contrastive-adversarial Domain Adaptation Nishant Yadav M. Alam Ahmed K. Farahat Dipanjan Ghosh Chetan Gupta A. Ganguly 26 2 0 10 Jan 2023
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling Keyu Tian Yi Jiang Qishuai Diao Chen Lin Liwei Wang Zehuan Yuan 84 106 0 09 Jan 2023
Learning the Relation between Similarity Loss and Clustering Loss in Self-Supervised Learning Jidong Ge YuXiang Liu Jie Gui Lanting Fang Ming Lin James T. Kwok LiGuo Huang B. Luo SSL 86 5 0 08 Jan 2023
Exploring Efficient Few-shot Adaptation for Vision Transformers C. Xu Siqian Yang Yabiao Wang Zhanxiong Wang Yanwei Fu Xiangyang Xue 97 17 0 06 Jan 2023
CiT: Curation in Training for Effective Vision-Language Data Hu Xu Saining Xie Po-Yao (Bernie) Huang Licheng Yu Russ Howes Gargi Ghosh Luke Zettlemoyer Christoph Feichtenhofer VLM DiffM 64 26 0 05 Jan 2023
Skip-Attention: Improving Vision Transformers by Paying Less Attention Shashanka Venkataramanan Amir Ghodrati Yuki M. Asano Fatih Porikli A. Habibian ViT 107 30 0 05 Jan 2023
Single-round Self-supervised Distributed Learning using Vision Transformer Sangjoon Park Ik-jae Lee Jun Won Kim Jong Chul Ye FedML MedIm 69 1 0 05 Jan 2023
Learning by Sorting: Self-supervised Learning with Group Ordering Constraints Nina Shvetsova Felix Petersen Anna Kukleva Bernt Schiele Hilde Kuehne SSL 102 13 0 05 Jan 2023
CAT: LoCalization and IdentificAtion Cascade Detection Transformer for Open-World Object Detection Shuailei Ma Yuefeng Wang Jiaqi Fan Ying-yu Wei Thomas H. Li Hongli Liu Fanbing Lv 95 37 0 05 Jan 2023
Event Camera Data Pre-training Yan Yang Liyuan Pan Liu Liu 73 36 0 05 Jan 2023
PACO: Parts and Attributes of Common Objects Vignesh Ramanathan Anmol Kalia Vladan Petrovic Yiqian Wen Baixue Zheng ... Abhishek Kadian Amir Mousavi Yi-Zhe Song Abhimanyu Dubey D. Mahajan VLM 96 105 0 04 Jan 2023
MoBYv2AL: Self-supervised Active Learning for Image Classification Razvan Caramalau Binod Bhattarai Danail Stoyanov Tae-Kyun Kim SSL 54 7 0 04 Jan 2023
Towards the Identifiability in Noisy Label Learning: A Multinomial Mixture Approach Cuong C. Nguyen Thanh-Toan Do G. Carneiro NoLa 72 0 0 04 Jan 2023
Ego-Only: Egocentric Action Detection without Exocentric Transferring Huiyu Wang Mitesh Singh Lorenzo Torresani EgoV 126 26 0 03 Jan 2023
TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models Sucheng Ren Fangyun Wei Zheng Zhang Han Hu 142 43 0 03 Jan 2023
A New Perspective to Boost Vision Transformer for Medical Image Classification Yuexiang Li Yawen Huang Nanjun He Kai Ma Yefeng Zheng ViT MedIm 88 3 0 03 Jan 2023
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders Sanghyun Woo Shoubhik Debnath Ronghang Hu Xinlei Chen Zhuang Liu In So Kweon Saining Xie SyDa 160 822 0 02 Jan 2023
Scene Structure Guidance Network: Unfolding Graph Partitioning into Pixel-Wise Feature Learning Ji Shin Seunghyun Shin Hae-Gon Jeon 84 7 0 02 Jan 2023
Deep Learning Technique for Human Parsing: A Survey and Outlook Lu Yang Wenhe Jia Shane Li Q. Song ViT 143 20 0 01 Jan 2023
Disjoint Masking with Joint Distillation for Efficient Masked Image Modeling Xin Ma Chang-Shu Liu Chunyu Xie Long Ye Yafeng Deng Xiang Ji 137 10 0 31 Dec 2022
Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning Colorado Reed Ritwik Gupta Shufan Li S. Brockman Christopher Funk Brian Clipp Kurt Keutzer Salvatore Candido M. Uyttendaele Trevor Darrell 167 192 0 30 Dec 2022
Improving Visual Representation Learning through Perceptual Understanding Samyakh Tukra Frederick Hoffman Ken Chatfield 86 5 0 30 Dec 2022
HIER: Metric Learning Beyond Class Labels via Hierarchical Regularization Sungyeon Kim Boseung Jung Suha Kwak 83 17 0 29 Dec 2022
Swin MAE: Masked Autoencoders for Small Datasets Zián Xu Yin Dai Fayu Liu Weibin Chen Yue Liu Li-Li Shi Sheng Liu Yuhang Zhou SyDa MedIm ViT 144 28 0 28 Dec 2022
Interactive Segmentation of Radiance Fields Rahul Goel Dhawal Sirikonda Saurabh Saini P. J. Narayanan 90 51 0 27 Dec 2022
Semi-Supervised Semantic Segmentation Methods for UW-OCTA Diabetic Retinopathy Grade Assessment Zhuoyi Tan H. Madzin Zeyu Ding 31 4 0 27 Dec 2022
GEDI: GEnerative and DIscriminative Training for Self-Supervised Learning Emanuele Sansone Robin Manhaeve SSL 105 9 0 27 Dec 2022
MVTN: Learning Multi-View Transformations for 3D Understanding Abdullah Hamdi Faisal AlZahrani Silvio Giancola Guohao Li 3DV 3DPC 139 6 0 27 Dec 2022