Training Noise Token Pruning

v1v2 (latest)

Training Noise Token Pruning

27 November 2024

ArXiv (abs)PDF HTML

Papers citing "Training Noise Token Pruning"

17 / 17 papers shown

Title
Which Tokens to Use? Investigating Token Reduction in Vision Transformers Joakim Bruslund Haurum Sergio Escalera Graham W. Taylor T. Moeslund ViT 85 38 0 09 Aug 2023
Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers Hongjie Wang Bhishma Dedhia N. Jha ViT VLM 88 29 0 27 May 2023
Token Merging for Fast Stable Diffusion Daniel Bolya Judy Hoffman 77 112 0 30 Mar 2023
Token Merging: Your ViT But Faster Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman MoMe 121 470 0 17 Oct 2022
Not All Patches are What You Need: Expediting Vision Transformers via Token Reorganizations Youwei Liang Chongjian Ge Zhan Tong Yibing Song Jue Wang P. Xie ViT 61 8 0 16 Feb 2022
AdaViT: Adaptive Tokens for Efficient Vision Transformer Hongxu Yin Arash Vahdat J. Álvarez Arun Mallya Jan Kautz Pavlo Molchanov ViT 120 341 0 14 Dec 2021
Adaptive Token Sampling For Efficient Vision Transformers Mohsen Fayyaz Soroush Abbasi Koohpayegani F. Jafari Sunando Sengupta Hamid Reza Vaezi Joze Eric Sommerlade Hamed Pirsiavash Juergen Gall ViT 111 159 0 30 Nov 2021
Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer Yifan Xu Zhijie Zhang Mengdan Zhang Kekai Sheng Ke Li Weiming Dong Liqing Zhang Changsheng Xu Xing Sun ViT 79 214 0 03 Aug 2021
Learned Token Pruning for Transformers Sehoon Kim Sheng Shen D. Thorsley A. Gholami Woosuk Kwon Joseph Hassoun Kurt Keutzer 65 157 0 02 Jul 2021
DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification Yongming Rao Wenliang Zhao Benlin Liu Jiwen Lu Jie Zhou Cho-Jui Hsieh ViT 104 708 0 03 Jun 2021
Training data-efficient image transformers & distillation through attention Hugo Touvron Matthieu Cord Matthijs Douze Francisco Massa Alexandre Sablayrolles Hervé Jégou ViT 389 6,805 0 23 Dec 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 676 41,483 0 22 Oct 2020
Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search Gyuwan Kim Kyunghyun Cho 76 98 0 14 Oct 2020
Decision-Making with Auto-Encoding Variational Bayes Romain Lopez Pierre Boyeau Nir Yosef Michael I. Jordan Jeffrey Regier BDL 521 10,591 0 17 Feb 2020
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 792 132,454 0 12 Jun 2017
Deep Variational Information Bottleneck Alexander A. Alemi Ian S. Fischer Joshua V. Dillon Kevin Patrick Murphy 128 1,728 0 01 Dec 2016
Information Dropout: Learning Optimal Representations Through Noisy Computation Alessandro Achille Stefano Soatto OOD DRL SSL 68 405 0 04 Nov 2016