ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases

19 March 2021

Papers citing "ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases"

50 / 399 papers shown

Title
MetaFormer: A Unified Meta Framework for Fine-Grained Recognition Qishuai Diao Yi-Xin Jiang Bin Wen Jianxiang Sun Zehuan Yuan 31 60 0 05 Mar 2022
Boosting Crowd Counting via Multifaceted Attention Hui Lin Zhiheng Ma Rongrong Ji Yaowei Wang Xiaopeng Hong 23 145 0 05 Mar 2022
ViT-P: Rethinking Data-efficient Vision Transformers from Locality Bin Chen Ran A. Wang Di Ming Xin Feng ViT 18 7 0 04 Mar 2022
A Unified Query-based Paradigm for Point Cloud Understanding Zetong Yang Li Jiang Yanan Sun Bernt Schiele Jiaya Jia 3DPC 25 38 0 02 Mar 2022
Auto-scaling Vision Transformers without Training Wuyang Chen Wei Huang Xianzhi Du Xiaodan Song Zhangyang Wang Denny Zhou ViT 32 23 0 24 Feb 2022
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond Qiming Zhang Yufei Xu Jing Zhang Dacheng Tao ViT 33 229 0 21 Feb 2022
Not All Patches are What You Need: Expediting Vision Transformers via Token Reorganizations Youwei Liang Chongjian Ge Zhan Tong Yibing Song Jue Wang P. Xie ViT 19 233 0 16 Feb 2022
How Do Vision Transformers Work? Namuk Park Songkuk Kim ViT 35 465 0 14 Feb 2022
Plug-In Inversion: Model-Agnostic Inversion for Vision with Data Augmentations Amin Ghiasi Hamid Kazemi Steven Reich Chen Zhu Micah Goldblum Tom Goldstein 42 15 0 31 Jan 2022
Approximately Equivariant Networks for Imperfectly Symmetric Dynamics Rui Wang Robin G. Walters Rose Yu 38 73 0 28 Jan 2022
Generalised Image Outpainting with U-Transformer Penglei Gao Xi Yang Rui Zhang John Y. Goulermas Yujie Geng Yuyao Yan Kaizhu Huang ViT 14 17 0 27 Jan 2022
Patches Are All You Need? Asher Trockman J. Zico Kolter ViT 225 402 0 24 Jan 2022
Boosting Robustness of Image Matting with Context Assembling and Strong Data Augmentation Yutong Dai Brian L. Price He Zhang Chunhua Shen 28 28 0 18 Jan 2022
Video Transformers: A Survey Javier Selva A. S. Johansen Sergio Escalera Kamal Nasrollahi T. Moeslund Albert Clapés ViT 22 103 0 16 Jan 2022
A ConvNet for the 2020s Zhuang Liu Hanzi Mao Chaozheng Wu Christoph Feichtenhofer Trevor Darrell Saining Xie ViT 42 4,972 0 10 Jan 2022
Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention Haotian Yan Chuang Zhang Ming Wu ViT 28 63 0 05 Jan 2022
CSformer: Bridging Convolution and Transformer for Compressive Sensing Dongjie Ye Zhangkai Ni Hanli Wang Jian Andrew Zhang Shiqi Wang Sam Kwong ViT MedIm 29 52 0 31 Dec 2021
Augmenting Convolutional networks with attention-based aggregation Hugo Touvron Matthieu Cord Alaaeldin El-Nouby Piotr Bojanowski Armand Joulin Gabriel Synnaeve Hervé Jégou ViT 38 47 0 27 Dec 2021
ELSA: Enhanced Local Self-Attention for Vision Transformer Jingkai Zhou Pichao Wang Fan Wang Qiong Liu Hao Li Rong Jin ViT 34 37 0 23 Dec 2021
Assessing the Impact of Attention and Self-Attention Mechanisms on the Classification of Skin Lesions Rafael Pedro Arlindo L. Oliveira 26 14 0 23 Dec 2021
Learned Queries for Efficient Local Attention Moab Arar Ariel Shamir Amit H. Bermano ViT 36 29 0 21 Dec 2021
MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection Rui Dai Srijan Das Kumara Kahatapitiya Michael S. Ryoo F. Brémond ViT 42 73 0 07 Dec 2021
Bootstrapping ViTs: Towards Liberating Vision Transformers from Pre-training Haofei Zhang Jiarui Duan Mengqi Xue Jie Song Li Sun Mingli Song ViT AI4CE 22 16 0 07 Dec 2021
Dynamic Token Normalization Improves Vision Transformers Wenqi Shao Yixiao Ge Zhaoyang Zhang Xuyuan Xu Xiaogang Wang Ying Shan Ping Luo ViT 121 11 0 05 Dec 2021
Residual Pathway Priors for Soft Equivariance Constraints Marc Finzi Gregory W. Benton A. Wilson BDL UQCV 24 50 0 02 Dec 2021
Pyramid Adversarial Training Improves ViT Performance Charles Herrmann Kyle Sargent Lu Jiang Ramin Zabih Huiwen Chang Ce Liu Dilip Krishnan Deqing Sun ViT 26 56 0 30 Nov 2021
On the Integration of Self-Attention and Convolution Xuran Pan Chunjiang Ge Rui Lu S. Song Guanfu Chen Zeyi Huang Gao Huang SSL 41 287 0 29 Nov 2021
GMFlow: Learning Optical Flow via Global Matching Haofei Xu Jing Zhang Jianfei Cai Hamid Rezatofighi Dacheng Tao 53 342 0 26 Nov 2021
SWAT: Spatial Structure Within and Among Tokens Kumara Kahatapitiya Michael S. Ryoo 25 6 0 26 Nov 2021
BoxeR: Box-Attention for 2D and 3D Transformers Duy-Kien Nguyen Jihong Ju Olaf Booji Martin R. Oswald Cees G. M. Snoek ViT 28 36 0 25 Nov 2021
Exploiting Both Domain-specific and Invariant Knowledge via a Win-win Transformer for Unsupervised Domain Adaptation Wen-hui Ma Jinming Zhang Shuang Li Chi Harold Liu Yulin Wang Wei Li ViT 21 11 0 25 Nov 2021
Self-slimmed Vision Transformer Zhuofan Zong Kunchang Li Guanglu Song Yali Wang Yu Qiao B. Leng Yu Liu ViT 21 30 0 24 Nov 2021
Pruning Self-attentions into Convolutional Layers in Single Path Haoyu He Jianfei Cai Jing Liu Zizheng Pan Jing Zhang Dacheng Tao Bohan Zhuang ViT 31 40 0 23 Nov 2021
MetaFormer Is Actually What You Need for Vision Weihao Yu Mi Luo Pan Zhou Chenyang Si Yichen Zhou Xinchao Wang Jiashi Feng Shuicheng Yan 26 873 0 22 Nov 2021
DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion Arthur Douillard Alexandre Ramé Guillaume Couairon Matthieu Cord CLL 30 295 0 22 Nov 2021
PointMixer: MLP-Mixer for Point Cloud Understanding Jaesung Choe Chunghyun Park François Rameau Jaesik Park In So Kweon 3DPC 39 98 0 22 Nov 2021
Semi-Supervised Vision Transformers Zejia Weng Xitong Yang Ang Li Zuxuan Wu Yu-Gang Jiang ViT 9 40 0 22 Nov 2021
Discrete Representations Strengthen Vision Transformer Robustness Chengzhi Mao Lu Jiang Mostafa Dehghani Carl Vondrick Rahul Sukthankar Irfan Essa ViT 27 43 0 20 Nov 2021
Rethinking Query, Key, and Value Embedding in Vision Transformer under Tiny Model Constraints Jaesin Ahn Jiuk Hong Jeongwoo Ju Heechul Jung ViT 26 3 0 19 Nov 2021
INTERN: A New Learning Paradigm Towards General Vision Jing Shao Siyu Chen Yangguang Li Kun Wang Zhen-fei Yin ... F. Yu Junjie Yan Dahua Lin Xiaogang Wang Yu Qiao 16 34 0 16 Nov 2021
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 71 330 0 11 Nov 2021
Convolutional Gated MLP: Combining Convolutions & gMLP A. Rajagopal V. Nirmala 26 14 0 06 Nov 2021
Can Vision Transformers Perform Convolution? Shanda Li Xiangning Chen Di He Cho-Jui Hsieh ViT 41 19 0 02 Nov 2021
Gabor filter incorporated CNN for compression Akihiro Imamura N. Arizumi CVBM 25 2 0 29 Oct 2021
Pipeline Parallelism for Inference on Heterogeneous Edge Computing Yang Hu Connor Imes Xuanang Zhao Souvik Kundu P. Beerel S. Crago J. Walters MoE 94 19 0 28 Oct 2021
The Nuts and Bolts of Adopting Transformer in GANs Rui Xu Xiangyu Xu Kai-xiang Chen Bolei Zhou Chen Change Loy ViT 17 4 0 25 Oct 2021
SOFT: Softmax-free Transformer with Linear Complexity Jiachen Lu Jinghan Yao Junge Zhang Martin Danelljan Hang Xu Weiguo Gao Chunjing Xu Thomas B. Schon Li Zhang 18 161 0 22 Oct 2021
Vis-TOP: Visual Transformer Overlay Processor Wei Hu Dian Xu Zimeng Fan Fang Liu Yanxiang He BDL ViT 20 5 0 21 Oct 2021
Inductive Biases and Variable Creation in Self-Attention Mechanisms Benjamin L. Edelman Surbhi Goel Sham Kakade Cyril Zhang 27 115 0 19 Oct 2021
HRFormer: High-Resolution Transformer for Dense Prediction Yuhui Yuan Rao Fu Lang Huang Weihong Lin Chao Zhang Xilin Chen Jingdong Wang ViT 38 227 0 18 Oct 2021