PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers

v1v2 (latest)

PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers

22 March 2022

Thomas Paniagua

Naresh P. Cuntoor

ArXiv (abs)PDF HTML Github (30★)

Papers citing "PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers"

6 / 6 papers shown

Title
Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks Uranik Berisha Jens Mehnert Alexandru Paul Condurache MoE 76 0 0 21 May 2025
Multi-View Attentive Contextualization for Multi-View 3D Object Detection Xianpeng Liu Ce Zheng Ming Qian Nan Xue Chong Chen Zhebin Zhang Chen Li Tianfu Wu 122 3 0 20 May 2024
LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation Wentao Jiang Jing Zhang Di Wang Qiming Zhang Zengmao Wang Bo Du 74 5 0 16 May 2024
SeTformer is What You Need for Vision and Language Pourya Shamsolmoali Masoumeh Zareapoor Eric Granger Michael Felsberg 71 5 0 07 Jan 2024
ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer Youwei Pang Xiaoqi Zhao Lihe Zhang Huchuan Lu 84 4 0 23 Jul 2023
Accelerating Transfer Learning with Near-Data Computation on Cloud Object Stores Arsany Guirguis Diana Petrescu Florin Dinu D. Quoc Javier Picorel R. Guerraoui 71 0 0 16 Oct 2022