Augmenting Convolutional networks with attention-based aggregation

27 December 2021

Papers citing "Augmenting Convolutional networks with attention-based aggregation"

20 / 20 papers shown

Title
Spline-based Transformers Prashanth Chandran Agon Serifi Markus Gross Moritz Bächer 41 0 0 03 Apr 2025
Rethinking Patch Dependence for Masked Autoencoders Letian Fu Long Lian Renhao Wang Baifeng Shi Xudong Wang Adam Yala Trevor Darrell Alexei A. Efros Ken Goldberg 31 14 0 25 Jan 2024
Improving Audio-Text Retrieval via Hierarchical Cross-Modal Interaction and Auxiliary Captions Yifei Xin Yuexian Zou 39 9 0 28 Jul 2023
A vector quantized masked autoencoder for audiovisual speech emotion recognition Samir Sadok Simon Leglaive Renaud Séguier SSL 79 6 0 05 May 2023
A Close Look at Spatial Modeling: From Attention to Convolution Xu Ma Huan Wang Can Qin Kunpeng Li Xing Zhao Jie Fu Yun Fu ViT 3DPC 22 11 0 23 Dec 2022
Backdoor Attacks on Vision Transformers Akshayvarun Subramanya Aniruddha Saha Soroush Abbasi Koohpayegani Ajinkya Tejankar Hamed Pirsiavash ViT AAML 8 16 0 16 Jun 2022
Focal Modulation Networks Jianwei Yang Chunyuan Li Xiyang Dai Lu Yuan Jianfeng Gao 3DPC 24 263 0 22 Mar 2022
Adversarial Masking for Self-Supervised Learning Yuge Shi N. Siddharth Philip H. S. Torr Adam R. Kosiorek SSL 56 82 0 31 Jan 2022
Patches Are All You Need? Asher Trockman J. Zico Kolter ViT 225 402 0 24 Jan 2022
Continual Transformers: Redundancy-Free Attention for Online Inference Lukas Hedegaard Arian Bakhtiarnia Alexandros Iosifidis CLL 20 11 0 17 Jan 2022
Pruning Self-attentions into Convolutional Layers in Single Path Haoyu He Jianfei Cai Jing Liu Zizheng Pan Jing Zhang Dacheng Tao Bohan Zhuang ViT 31 40 0 23 Nov 2021
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 71 330 0 11 Nov 2021
Are we ready for a new paradigm shift? A Survey on Visual Deep MLP Ruiyang Liu Yinghui Li Li Tao Dun Liang Haitao Zheng 85 97 0 07 Nov 2021
Non-deep Networks Ankit Goyal Alexey Bochkovskiy Jia Deng V. Koltun 113 69 0 14 Oct 2021
ResNet strikes back: An improved training procedure in timm Ross Wightman Hugo Touvron Hervé Jégou AI4TS 209 487 0 01 Oct 2021
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 271 2,603 0 04 May 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 314 5,775 0 29 Apr 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 277 3,622 0 24 Feb 2021
High-Performance Large-Scale Image Recognition Without Normalization Andrew Brock Soham De Samuel L. Smith Karen Simonyan VLM 223 512 0 11 Feb 2021
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,216 0 16 Nov 2016