How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers

18 June 2021

Papers citing "How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers"

50 / 415 papers shown

Title
Flexible Alignment Super-Resolution Network for Multi-Contrast MRI Yiming Liu Mengxi Zhang Weiqin Zhang B. Jiang Bo Hou Dan Liu Jie Chen Heqing Lian MedIm 25 1 0 07 Oct 2022
Effective Self-supervised Pre-training on Low-compute Networks without Distillation Fuwen Tan F. Saleh Brais Martínez 35 4 0 06 Oct 2022
MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models Chenglin Yang Siyuan Qiao Qihang Yu Xiaoding Yuan Yukun Zhu Alan Yuille Hartwig Adam Liang-Chieh Chen ViT MoE 39 58 0 04 Oct 2022
A Multiagent Framework for the Asynchronous and Collaborative Extension of Multitask ML Systems Andrea Gesmundo 26 2 0 29 Sep 2022
Greybox XAI: a Neural-Symbolic learning framework to produce interpretable predictions for image classification Adrien Bennetot Gianni Franchi Javier Del Ser Raja Chatila Natalia Díaz Rodríguez AAML 32 29 0 26 Sep 2022
Lightweight Transformers for Human Activity Recognition on Mobile Devices Sannara Ek François Portet P. Lalanda 31 28 0 22 Sep 2022
Learning Model Predictive Controllers with Real-Time Attention for Real-World Navigation Xuesu Xiao Tingnan Zhang K. Choromanski Edward J. Lee Anthony G. Francis ... Leila Takayama Roy Frostig Jie Tan Carolina Parada Vikas Sindhwani 75 54 0 22 Sep 2022
Understanding the Tricks of Deep Learning in Medical Image Segmentation: Challenges and Future Directions Dong-Ming Zhang Yi-Mou Lin Hao Chen Zhuotao Tian Xin Yang Jinhui Tang Kwang-Ting Cheng VLM 35 11 0 21 Sep 2022
Relaxed Attention for Transformer Models Timo Lohrenz Björn Möller Zhengyang Li Tim Fingscheidt KELM 29 11 0 20 Sep 2022
Enhance the Visual Representation via Discrete Adversarial Training Xiaofeng Mao YueFeng Chen Ranjie Duan Yao Zhu Gege Qi Shaokai Ye Xiaodan Li Rong Zhang Hui Xue 44 31 0 16 Sep 2022
A Light Recipe to Train Robust Vision Transformers Edoardo Debenedetti Vikash Sehwag Prateek Mittal ViT 32 68 0 15 Sep 2022
A Continual Development Methodology for Large-scale Multitask Dynamic ML Systems Andrea Gesmundo 21 18 0 15 Sep 2022
Video Vision Transformers for Violence Detection Sanskar Singh Shivaibhav Dewangan G. S. Krishna Vandit Tyagi S. Reddy Prathistith Raj Medi ViT 18 10 0 08 Sep 2022
Design of the topology for contrastive visual-textual alignment Zhun Sun 30 1 0 05 Sep 2022
Open-Set Semi-Supervised Object Detection Yen-Cheng Liu Chih-Yao Ma Xiaoliang Dai Junjiao Tian Peter Vajda Zijian He Z. Kira 21 22 0 29 Aug 2022
Multiple Instance Neuroimage Transformer Ayush Singla Qingyu Zhao Daniel K. Do Yuyin Zhou K. Pohl Ehsan Adeli ViT MedIm 24 11 0 19 Aug 2022
Discovering Bugs in Vision Models using Off-the-shelf Image Generation and Captioning Olivia Wiles Isabela Albuquerque Sven Gowal VLM 40 47 0 18 Aug 2022
ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human Activity Recognition in Videos James Wensel Hayat Ullah Arslan Munir ViT 18 42 0 16 Aug 2022
Data Augmentation is a Hyperparameter: Cherry-picked Self-Supervision for Unsupervised Anomaly Detection is Creating the Illusion of Success Jaemin Yoo Tianchen Zhao L. Akoglu 56 7 0 16 Aug 2022
Self-Supervised Multimodal Fusion Transformer for Passive Activity Recognition Armand K. Koupai M. J. Bocus Raúl Santos-Rodríguez Robert Piechocki Ryan McConville ViT 30 9 0 15 Aug 2022
Exploring the Design of Adaptation Protocols for Improved Generalization and Machine Learning Safety Puja Trivedi Danai Koutra Jayaraman J. Thiagarajan AAML 28 0 0 26 Jul 2022
Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers Jia Li Jian‐Hui Nie Dan Guo Richang Hong Meng Wang ViT 32 14 0 22 Jul 2022
iColoriT: Towards Propagating Local Hint to the Right Region in Interactive Colorization by Leveraging Vision Transformer Jooyeol Yun Sanghyeon Lee Minho Park Jaegul Choo ViT 17 2 0 14 Jul 2022
Pure Transformers are Powerful Graph Learners Jinwoo Kim Tien Dat Nguyen Seonwoo Min Sungjun Cho Moontae Lee Honglak Lee Seunghoon Hong 43 189 0 06 Jul 2022
Generalization to translation shifts: a study in architectures and augmentations Suriya Gunasekar 11 1 0 05 Jul 2022
TractoFormer: A Novel Fiber-level Whole Brain Tractography Analysis Framework Using Spectral Embedding and Vision Transformers Fan Zhang Tengfei Xue Weidong (Tom) Cai Yogesh Rathi C. Westin L. O’Donnell MedIm 31 8 0 05 Jul 2022
Visual Transformer Meets CutMix for Improved Accuracy, Communication Efficiency, and Data Privacy in Split Learning Sihun Baek Jihong Park Praneeth Vepakomma Ramesh Raskar M. Bennis Seong-Lyun Kim FedML 31 10 0 01 Jul 2022
Robustifying Vision Transformer without Retraining from Scratch by Test-Time Class-Conditional Feature Alignment Takeshi Kojima Yutaka Matsuo Yusuke Iwasawa 55 27 0 28 Jun 2022
Thermodynamics-inspired Explanations of Artificial Intelligence S. Mehdi P. Tiwary AI4CE 17 16 0 27 Jun 2022
M&M Mix: A Multimodal Multiview Transformer Ensemble Xuehan Xiong Anurag Arnab Arsha Nagrani Cordelia Schmid ViT 23 19 0 20 Jun 2022
Camera Adaptation for Fundus-Image-Based CVD Risk Estimation Zhihong Lin Danli Shi Donghao Zhang Xuedong Shang Mingguang He Z. Ge 13 5 0 18 Jun 2022
Fast Finite Width Neural Tangent Kernel Roman Novak Jascha Narain Sohl-Dickstein S. Schoenholz AAML 22 53 0 17 Jun 2022
OpenSRH: optimizing brain tumor surgery using intraoperative stimulated Raman histology Cheng Jiang Asadur Chowdury X. Hou A. Kondepudi C. Freudiger Kyle S. Conway S. Camelo-Piragua D. Orringer Ho Hin Lee Todd C. Hollon 17 13 0 16 Jun 2022
INDIGO: Intrinsic Multimodality for Domain Generalization Puneet Mangla Shivam Chandhok Milan Aggarwal V. Balasubramanian Balaji Krishnamurthy VLM 41 2 0 13 Jun 2022
Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs Jinguo Zhu Xizhou Zhu Wenhai Wang Xiaohua Wang Hongsheng Li Xiaogang Wang Jifeng Dai MoMe MoE 21 66 0 09 Jun 2022
Which models are innately best at uncertainty estimation? Ido Galil Mohammed Dabbah Ran El-Yaniv UQCV 34 5 0 05 Jun 2022
Optimizing Relevance Maps of Vision Transformers Improves Robustness Hila Chefer Idan Schwartz Lior Wolf ViT 32 37 0 02 Jun 2022
Surface Analysis with Vision Transformers Simon Dahan Logan Z. J. Williams Abdulah Fawaz Daniel Rueckert E. C. Robinson ViT MedIm 29 2 0 31 May 2022
Exploring Advances in Transformers and CNN for Skin Lesion Diagnosis on Small Datasets Leandro M. de Lima R. Krohling ViT MedIm 28 10 0 30 May 2022
Self-Supervised Pre-training of Vision Transformers for Dense Prediction Tasks Jaonary Rabarisoa Velentin Belissen Florian Chabot Q. C. Pham VLM ViT SSL MDE 23 2 0 30 May 2022
SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners Feng Liang Yangguang Li Diana Marculescu SSL TPM ViT 51 22 0 28 May 2022
A Closer Look at Self-Supervised Lightweight Vision Transformers Shaoru Wang Jin Gao Zeming Li Jian Sun Weiming Hu ViT 67 41 0 28 May 2022
An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems Andrea Gesmundo J. Dean 36 23 0 25 May 2022
An Empirical Study on Distribution Shift Robustness From the Perspective of Pre-Training and Data Augmentation Ziquan Liu Yi Tian Xu Yuanhong Xu Qi Qian Hao Li Rong Jin Xiangyang Ji Antoni B. Chan OOD 45 14 0 25 May 2022
muNet: Evolving Pretrained Deep Neural Networks into Scalable Auto-tuning Multitask Systems Andrea Gesmundo J. Dean 30 19 0 22 May 2022
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes Alexander Kolesnikov André Susano Pinto Lucas Beyer Xiaohua Zhai Jeremiah Harmsen N. Houlsby 103 67 0 20 May 2022
Vision Transformer Adapter for Dense Predictions Zhe Chen Yuchen Duan Wenhai Wang Junjun He Tong Lu Jifeng Dai Yu Qiao 43 543 0 17 May 2022
ImageSig: A signature transform for ultra-lightweight image recognition Mohamed Ramzy Ibrahim Terry Lyons VLM 19 7 0 13 May 2022
Simple Open-Vocabulary Object Detection with Vision Transformers Matthias Minderer A. Gritsenko Austin Stone Maxim Neumann Dirk Weissenborn ... Zhuoran Shen Tianlin Li Xiaohua Zhai Thomas Kipf N. Houlsby ObjD CLIP VLM ViT OCL 34 307 0 12 May 2022
Weakly-supervised segmentation of referring expressions Robin Strudel Ivan Laptev Cordelia Schmid 22 21 0 10 May 2022