Do Vision Transformers See Like Convolutional Neural Networks?

19 August 2021

Alexey Dosovitskiy

Papers citing "Do Vision Transformers See Like Convolutional Neural Networks?"

50 / 440 papers shown

Title
BiRT: Bio-inspired Replay in Vision Transformers for Continual Learning Kishaan Jeeveswaran Prashant Bhat Bahram Zonooz Elahe Arani CLL 21 19 0 08 May 2023
Understanding Gaussian Attention Bias of Vision Transformers Using Effective Receptive Fields Bum Jun Kim Hyeyeon Choi Hyeonah Jang Sang Woo Kim ViT 20 3 0 08 May 2023
RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution Network for Unsupervised Image Registration Mingrui Ma Tao Wang Lei Song Weijie Wang Gui-Xian Liu ViT MedIm 16 2 0 07 May 2023
DBAT: Dynamic Backward Attention Transformer for Material Segmentation with Cross-Resolution Patches Yuwen Heng S. Dasmahapatra Hansung Kim 17 1 0 06 May 2023
Self-Supervised Learning for Organs At Risk and Tumor Segmentation with Uncertainty Quantification I. Isler Debesh Jha C. Lisle J. Rineer P. Kelly B. Aydogan M. Abazeed D. Turgut Ulas Bagci ViT MedIm UQCV 25 2 0 04 May 2023
Learngene: Inheriting Condensed Knowledge from the Ancestry Model to Descendant Models Qiufeng Wang Xu Yang Shuxia Lin Jing Wang Xin Geng 23 10 0 03 May 2023
What Do Self-Supervised Vision Transformers Learn? Namuk Park Wonjae Kim Byeongho Heo Taekyung Kim Sangdoo Yun SSL 67 76 1 01 May 2023
Uncovering the Representation of Spiking Neural Networks Trained with Surrogate Gradient Yuhang Li Youngeun Kim Hyoungseob Park Priyadarshini Panda 30 16 0 25 Apr 2023
Objectives Matter: Understanding the Impact of Self-Supervised Objectives on Vision Transformer Representations Shashank Shekhar Florian Bordes Pascal Vincent Ari S. Morcos 18 10 0 25 Apr 2023
Depth-Relative Self Attention for Monocular Depth Estimation Kyuhong Shim Jiyoung Kim Gusang Lee B. Shim MDE 18 7 0 25 Apr 2023
Shape-Net: Room Layout Estimation from Panoramic Images Robust to Occlusion using Knowledge Distillation with 3D Shapes as Additional Inputs M. Tabata Kana Kurata Junichiro Tamamatsu 3DV 3DPC 19 4 0 25 Apr 2023
Survey on Unsupervised Domain Adaptation for Semantic Segmentation for Visual Perception in Automated Driving Manuel Schwonberg J. Niemeijer Jan-Aike Termöhlen Jörg P. Schäfer Nico M. Schmidt Hanno Gottschalk Tim Fingscheidt OOD AI4CE 28 31 0 24 Apr 2023
A Review of Deep Learning for Video Captioning Moloud Abdar Meenakshi Kollati Swaraja Kuraparthi Farhad Pourpanah Daniel J. McDuff ... Shuicheng Yan Abduallah A. Mohamed Abbas Khosravi Erik Cambria Fatih Porikli 3DV 27 20 0 22 Apr 2023
Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget Johannes Lehner Benedikt Alkin Andreas Fürst Elisabeth Rumetshofer Lukas Miklautz Sepp Hochreiter 23 18 0 20 Apr 2023
GlobalMind: Global Multi-head Interactive Self-attention Network for Hyperspectral Change Detection Meiqi Hu Chen Wu L. Zhang 27 17 0 18 Apr 2023
ImageNet-Hard: The Hardest Images Remaining from a Study of the Power of Zoom and Spatial Biases in Image Classification Mohammad Reza Taesiri Giang Nguyen Sarra Habchi C. Bezemer Anh Totti Nguyen VLM 32 20 0 11 Apr 2023
Data-Efficient Image Quality Assessment with Attention-Panel Decoder Guanyi Qin R. Hu Yutao Liu Xiawu Zheng Haotian Liu Xiu Li Yan Zhang ViT 21 60 0 11 Apr 2023
Revisiting the Evaluation of Image Synthesis with GANs Mengping Yang Ceyuan Yang Yichi Zhang Qingyan Bai Yujun Shen Bo Dai EGVM 27 7 0 04 Apr 2023
On the Stability-Plasticity Dilemma of Class-Incremental Learning Dongwan Kim Bohyung Han CLL 15 48 0 04 Apr 2023
FedIN: Federated Intermediate Layers Learning for Model Heterogeneity Yun-Hin Chan Zhihan Jiang Jing Deng Edith C. H. Ngai FedML 24 1 0 03 Apr 2023
Accelerating exploration and representation learning with offline pre-training Bogdan Mazoure Jake Bruce Doina Precup Rob Fergus Ankit Anand OffRL 31 5 0 31 Mar 2023
You Only Train Once: Learning a General Anomaly Enhancement Network with Random Masks for Hyperspectral Anomaly Detection Zhaoxu Li Yingqian Wang Chao Xiao Qi Ling Zaiping Lin Wei An 22 32 0 31 Mar 2023
APPT : Asymmetric Parallel Point Transformer for 3D Point Cloud Understanding Hengjia Li Tu Zheng Zhihao Chi Zheng Yang Wenxiao Wang Boxi Wu Binbin Lin Deng Cai 3DPC 38 1 0 31 Mar 2023
PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor Vidit Goel E. Peruzzo Yifan Jiang Dejia Xu Xingqian Xu N. Sebe Trevor Darrell Zhangyang Wang Humphrey Shi DiffM 22 6 0 30 Mar 2023
Learning Attention as Disentangler for Compositional Zero-shot Learning Shaozhe Hao Kai Han Kwan-Yee Kenneth Wong CoGe OCL 39 26 0 27 Mar 2023
Sector Patch Embedding: An Embedding Module Conforming to The Distortion Pattern of Fisheye Image Dian Yang Jiadong Tang Yu Gao Yi Yang M. Fu 18 1 0 26 Mar 2023
How Does Attention Work in Vision Transformers? A Visual Analytics Attempt Yiran Li Junpeng Wang Xin Dai Liang Wang Chin-Chia Michael Yeh Yan Zheng Wei Zhang Kwan-Liu Ma ViT 20 23 0 24 Mar 2023
Masked Image Training for Generalizable Deep Image Denoising Haoyu Chen Jinjin Gu Yihao Liu Salma Abdel Magid Chao Dong Qiong Wang Hanspeter Pfister Lei Zhu 22 63 0 23 Mar 2023
Improving Transformer Performance for French Clinical Notes Classification Using Mixture of Experts on a Limited Dataset Thanh-Dung Le P. Jouvet R. Noumeir MoE MedIm 72 5 0 22 Mar 2023
Contrastive Alignment of Vision to Language Through Parameter-Efficient Transfer Learning Zaid Khan Yun Fu VLM 33 12 0 21 Mar 2023
Equiangular Basis Vectors Yang Shen Xuhao Sun Xiuying Wei 33 7 0 21 Mar 2023
ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile Devices Chen Tang Li Lyna Zhang Huiqiang Jiang Jiahang Xu Ting Cao Quanlu Zhang Yuqing Yang Zhi Wang Mao Yang 25 11 0 17 Mar 2023
Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning Haoyu He Jianfei Cai Jing Zhang Dacheng Tao Bohan Zhuang VPVLM 14 50 0 15 Mar 2023
Pretrained ViTs Yield Versatile Representations For Medical Images Christos Matsoukas Johan Fredin Haslum Magnus P Soderberg Kevin Smith MedIm ViT 19 11 0 13 Mar 2023
CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale Attention Wenxiao Wang Wei Chen Qibo Qiu Long Chen Boxi Wu Binbin Lin Xiaofei He Wei Liu 26 38 0 13 Mar 2023
Recursive Generalization Transformer for Image Super-Resolution Zheng Chen Yulun Zhang Jinjin Gu L. Kong Xiaokang Yang ViT 21 27 0 11 Mar 2023
X-Pruner: eXplainable Pruning for Vision Transformers Lu Yu Wei Xiang ViT 9 48 0 08 Mar 2023
Centroid-centered Modeling for Efficient Vision Transformer Pre-training Xin Yan Zuchao Li Lefei Zhang Bo Du Dacheng Tao VLM 30 0 0 08 Mar 2023
HyT-NAS: Hybrid Transformers Neural Architecture Search for Edge Devices Lotfi Abdelkrim Mecharbat Hadjer Benmeziane Hamza Ouarnoughi Smail Niar ViT 29 4 0 08 Mar 2023
Multimodal Prompting with Missing Modalities for Visual Recognition Yi-Lun Lee Yi-Hsuan Tsai Wei-Chen Chiu Chen-Yu Lee VPVLM 22 93 0 06 Mar 2023
MABNet: Master Assistant Buddy Network with Hybrid Learning for Image Retrieval Rohit Agarwal Gyanendra Das Saksham Aggarwal Alexander Horsch Dilip K. Prasad 21 0 0 06 Mar 2023
Self-attention in Vision Transformers Performs Perceptual Grouping, Not Attention Paria Mehrani John K. Tsotsos 25 24 0 02 Mar 2023
Language-Driven Representation Learning for Robotics Siddharth Karamcheti Suraj Nair Annie S. Chen Thomas Kollar Chelsea Finn Dorsa Sadigh Percy Liang LM&Ro SSL 36 145 0 24 Feb 2023
Effects of Architectures on Continual Semantic Segmentation Tobias Kalb Niket Ahuja Jingxing Zhou Jürgen Beyerer CLL 26 3 0 21 Feb 2023
Hyneter: Hybrid Network Transformer for Object Detection Dong Chen Duoqian Miao Xuepeng Zhao ViT 29 3 0 18 Feb 2023
Efficiency 360: Efficient Vision Transformers Badri N. Patro Vijay Srinivas Agneeswaran 26 6 0 16 Feb 2023
Self-supervised pseudo-colorizing of masked cells Royden Wagner Carlos Fernandez Lopez Christoph Stiller 17 0 0 12 Feb 2023
Understanding Why ViT Trains Badly on Small Datasets: An Intuitive Perspective Haoran Zhu Boyuan Chen Carter Yang ViT 25 28 0 07 Feb 2023
V1T: large-scale mouse V1 response prediction using a Vision Transformer Bryan M. Li I. M. Cornacchia Nathalie L Rochefort A. Onken 24 8 0 06 Feb 2023
Revisiting Image Deblurring with an Efficient ConvNet Lingyan Ruan Mojtaba Bemana Hans-peter Seidel K. Myszkowski Bin Chen 36 12 0 04 Feb 2023