MaxViT: Multi-Axis Vision Transformer

4 April 2022

Feng Yang

Papers citing "MaxViT: Multi-Axis Vision Transformer"

50 / 108 papers shown

Title
Dual Aggregation Transformer for Image Super-Resolution Zheng Chen Yulun Zhang Jinjin Gu L. Kong Xiaokang Yang F. I. F. Richard Yu ViT 22 167 0 07 Aug 2023
M2Former: Multi-Scale Patch Selection for Fine-Grained Visual Recognition Ji-Hee Moon Junseok K. Lee Yu-Ling Lee Seongsik Park 35 4 0 04 Aug 2023
Performance-optimized deep neural networks are evolving into worse models of inferotemporal visual cortex Drew Linsley I. F. Rodriguez Thomas Fel Michael Arcaro Saloni Sharma Margaret Livingstone Thomas Serre 35 18 0 06 Jun 2023
Lightweight Vision Transformer with Bidirectional Interaction Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He ViT 50 28 0 01 Jun 2023
CWD30: A Comprehensive and Holistic Dataset for Crop Weed Recognition in Precision Agriculture Talha Ilyas D. M. S. Arsa Khubaib Ahmad Yongchae Jeong Okjae Won Jong Hoon Lee H. Kim 10 3 0 17 May 2023
MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation Abdul Rehman Khan Asifullah Khan ViT MedIm 39 14 0 15 May 2023
CAD-RADS scoring of coronary CT angiography with Multi-Axis Vision Transformer: a clinically-inspired deep learning pipeline Alessia Gerbasi A. Dagliati Giuseppe Albi M. Chiesa D. Andreini A. Baggiano S. Mushtaq G. Pontone Riccardo Bellazzi G. Colombo MedIm 25 5 0 14 Apr 2023
Wild Face Anti-Spoofing Challenge 2023: Benchmark and Results Dong Wang J. Guo Qiqi Shao Haochi He Zhian Chen ... Sergio Escalera Hugo Jair Escalante Lei Zhen Jun Wan Jiankang Deng CVBM AAML 9 11 0 12 Apr 2023
Vision Transformers with Mixed-Resolution Tokenization Tomer Ronen Omer Levy A. Golbert ViT 11 21 0 01 Apr 2023
APPT : Asymmetric Parallel Point Transformer for 3D Point Cloud Understanding Hengjia Li Tu Zheng Zhihao Chi Zheng Yang Wenxiao Wang Boxi Wu Binbin Lin Deng Cai 3DPC 51 1 0 31 Mar 2023
Multi-scale Hierarchical Vision Transformer with Cascaded Attention Decoding for Medical Image Segmentation Md Mostafijur Rahman R. Marculescu MedIm ViT 24 44 0 29 Mar 2023
SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications Abdelrahman M. Shaker Muhammad Maaz H. Rasheed Salman Khan Ming Yang F. Khan ViT 50 84 0 27 Mar 2023
Joint Person Identity, Gender and Age Estimation from Hand Images using Deep Multi-Task Representation Learning N. L. Baisa CVBM 35 4 0 27 Mar 2023
FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization Pavan Kumar Anasosalu Vasu J. Gabriel Jeff J. Zhu Oncel Tuzel Anurag Ranjan ViT 37 153 0 24 Mar 2023
Rethinking Model Ensemble in Transfer-based Adversarial Attacks Huanran Chen Yichi Zhang Yinpeng Dong Xiao Yang Hang Su Junyi Zhu AAML 28 56 0 16 Mar 2023
DwinFormer: Dual Window Transformers for End-to-End Monocular Depth Estimation Md Awsafur Rahman S. Fattah ViT MDE 38 4 0 06 Mar 2023
Efficiency 360: Efficient Vision Transformers Badri N. Patro Vijay Srinivas Agneeswaran 26 6 0 16 Feb 2023
Efficient Attention via Control Variates Lin Zheng Jianbo Yuan Chong-Jun Wang Lingpeng Kong 34 18 0 09 Feb 2023
Out of Distribution Performance of State of Art Vision Model Salman Rahman W. Lee 37 2 0 25 Jan 2023
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders Sanghyun Woo Shoubhik Debnath Ronghang Hu Xinlei Chen Zhuang Liu In So Kweon Saining Xie SyDa 82 727 0 02 Jan 2023
Edge Enhanced Image Style Transfer via Transformers Chi Zhang Jun Yang Zaiyan Dai Peng-Xia Cao 16 10 0 02 Jan 2023
Rethinking Vision Transformers for MobileNet Size and Speed Yanyu Li Ju Hu Yang Wen Georgios Evangelidis Kamyar Salahi Yanzhi Wang Sergey Tulyakov Jian Ren ViT 35 159 0 15 Dec 2022
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale Yuxin Fang Wen Wang Binhui Xie Quan-Sen Sun Ledell Yu Wu Xinggang Wang Tiejun Huang Xinlong Wang Yue Cao VLM CLIP 87 675 0 14 Nov 2022
Fcaformer: Forward Cross Attention in Hybrid Vision Transformer Haokui Zhang Wenze Hu Xiaoyu Wang ViT 19 8 0 14 Nov 2022
Token Transformer: Can class token help window-based transformer build better long-range interactions? Jia-ju Mao Yuan Chang Xuesong Yin 31 0 0 11 Nov 2022
Rethinking Hierarchies in Pre-trained Plain Vision Transformer Yufei Xu Jing Zhang Qiming Zhang Dacheng Tao 18 1 0 03 Nov 2022
State-of-the-art Models for Object Detection in Various Fields of Application S. A. G. Naqvi Syed Shahnawaz Ali ObjD OOD 35 0 0 01 Nov 2022
Contextual Learning in Fourier Complex Field for VHR Remote Sensing Images Yan Zhang Xiyuan Gao Qingyan Duan Jiaxu Leng Xiao Pu Xinbo Gao ViT 16 1 0 28 Oct 2022
Domain Adaptive Object Detection for Autonomous Driving under Foggy Weather Jinlong Li Runsheng Xu Jin Ma Q. Zou Jiaqi Ma Hongkai Yu TTA 36 67 0 27 Oct 2022
MetaFormer Baselines for Vision Weihao Yu Chenyang Si Pan Zhou Mi Luo Yichen Zhou Jiashi Feng Shuicheng Yan Xinchao Wang MoE 40 156 0 24 Oct 2022
S2WAT: Image Style Transfer via Hierarchical Vision Transformer using Strips Window Attention Chi Zhang Xiaogang Xu Lei Wang Zaiyan Dai Jun Yang ViT 34 23 0 22 Oct 2022
Centralized Feature Pyramid for Object Detection Yu Quan Dong Zhang Liyan Zhang Jinhui Tang ObjD 31 148 0 05 Oct 2022
MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models Chenglin Yang Siyuan Qiao Qihang Yu Xiaoding Yuan Yukun Zhu Alan Yuille Hartwig Adam Liang-Chieh Chen ViT MoE 39 58 0 04 Oct 2022
E-Branchformer: Branchformer with Enhanced merging for speech recognition Kwangyoun Kim Felix Wu Yifan Peng Jing Pan Prashant Sridhar Kyu Jeong Han Shinji Watanabe 61 105 0 30 Sep 2022
Dilated Neighborhood Attention Transformer Ali Hassani Humphrey Shi ViT MedIm 33 68 0 29 Sep 2022
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks Wenhui Wang Hangbo Bao Li Dong Johan Bjorck Zhiliang Peng ... Kriti Aggarwal O. Mohammed Saksham Singhal Subhojit Som Furu Wei MLLM VLM ViT 49 629 0 22 Aug 2022
Transformer Vs. MLP-Mixer: Exponential Expressive Gap For NLP Problems D. Navon A. Bronstein MoE 38 0 0 17 Aug 2022
Tracking Objects as Pixel-wise Distributions Zelin Zhao Ze Wu Yueqing Zhuang Boxun Li Jiaya Jia VOT 31 54 0 12 Jul 2022
Dual Vision Transformer Ting Yao Yehao Li Yingwei Pan Yu Wang Xiaoping Zhang Tao Mei ViT 141 75 0 11 Jul 2022
CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers Runsheng Xu Zhengzhong Tu Hao Xiang Wei Shao Bolei Zhou Jiaqi Ma 56 218 0 05 Jul 2022
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm Jiangning Zhang Xiangtai Li Yabiao Wang Chengjie Wang Yibo Yang Yong Liu Dacheng Tao ViT 34 32 0 19 Jun 2022
Rethinking Generalization in Few-Shot Classification Markus Hiller Rongkai Ma Mehrtash Harandi Tom Drummond OCL VLM 30 55 0 15 Jun 2022
Recurrent Video Restoration Transformer with Guided Deformable Attention Jingyun Liang Yuchen Fan Xiaoyu Xiang Rakesh Ranjan Eddy Ilg Simon Green Jiezhang Cao Kaixuan Zhang Radu Timofte Luc Van Gool 42 152 0 05 Jun 2022
EfficientFormer: Vision Transformers at MobileNet Speed Yanyu Li Geng Yuan Yang Wen Eric Hu Georgios Evangelidis Sergey Tulyakov Yanzhi Wang Jian Ren ViT 23 347 0 02 Jun 2022
Multi-Agent Reinforcement Learning is a Sequence Modeling Problem Muning Wen J. Kuba Runji Lin Weinan Zhang Ying Wen Jun Wang Yaodong Yang 26 178 0 30 May 2022
Inception Transformer Chenyang Si Weihao Yu Pan Zhou Yichen Zhou Xinchao Wang Shuicheng Yan ViT 26 187 0 25 May 2022
Pik-Fix: Restoring and Colorizing Old Photos Runsheng Xu Zhengzhong Tu Yuanqi Du Xiaoyu Dong Jinlong Li Zibo Meng Jiaqi Ma A. Bovik Hongkai Yu 39 13 0 04 May 2022
V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer Runsheng Xu Hao Xiang Zhengzhong Tu Xin Xia Ming-Hsuan Yang Jiaqi Ma ViT 117 362 0 20 Mar 2022
MUSIQ: Multi-scale Image Quality Transformer Junjie Ke Qifei Wang Yilin Wang P. Milanfar Feng Yang 168 624 0 12 Aug 2021
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 274 2,603 0 04 May 2021