Title
CAFE-AD: Cross-Scenario Adaptive Feature Enhancement for Trajectory Planning in Autonomous Driving Junrui Zhang Chenjie Wang Jie Peng Haoyu Li Jianmin Ji Yu Zhang Yuhang Zhang 38 0 0 09 Apr 2025
Reinforcement Learning-based Token Pruning in Vision Transformers: A Markov Game Approach Chenglong Lu Shen Liang Xiang Wang Wei Wang ViT OffRL 54 0 0 30 Mar 2025
Rethinking Token Reduction for State Space Models Zheng Zhan Yushu Wu Zhenglun Kong Changdi Yang Yifan Gong Xuan Shen Xue Lin Pu Zhao Yanzhi Wang Mamba 32 4 0 16 Oct 2024
Exploring Token Pruning in Vision State Space Models Zheng Zhan Zhenglun Kong Yifan Gong Yushu Wu Zichong Meng ... Xuan Shen Stratis Ioannidis Wei Niu Pu Zhao Yanzhi Wang 32 9 0 27 Sep 2024
Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge Xuan Shen Peiyan Dong Lei Lu Zhenglun Kong Zhengang Li Ming Lin Chao Wu Yanzhi Wang MQ 39 24 0 09 Dec 2023
Improved TokenPose with Sparsity Anning Li ViT 34 0 0 16 Nov 2023
GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation Xuwei Xu Sen Wang Yudong Chen Yanping Zheng Zhewei Wei Jiajun Liu ViT 22 8 0 06 Nov 2023
Distilling Token-Pruned Pose Transformer for 2D Human Pose Estimation Feixiang Ren ViT 19 2 0 12 Apr 2023
On Efficient Training of Large-Scale Deep Learning Models: A Literature Review Li Shen Yan Sun Zhiyuan Yu Liang Ding Xinmei Tian Dacheng Tao VLM 30 40 0 07 Apr 2023
DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural Network Xuan Shen Yaohua Wang Ming Lin Yi-Li Huang Hao Tang Xiuyu Sun Yanzhi Wang 70 33 0 05 Mar 2023
DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing Conglong Li Z. Yao Xiaoxia Wu Minjia Zhang Connor Holmes Cheng Li Yuxiong He 19 24 0 07 Dec 2022
Data Level Lottery Ticket Hypothesis for Vision Transformers Xuan Shen Zhenglun Kong Minghai Qin Peiyan Dong Geng Yuan Xin Meng Hao Tang Xiaolong Ma Yanzhi Wang 30 6 0 02 Nov 2022
Interaction Transformer for Human Reaction Generation Baptiste Chopin Hao Tang N. Otberdout Mohamed Daoudi N. Sebe ViT 35 27 0 04 Jul 2022
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks Yongming Rao Zuyan Liu Wenliang Zhao Jie Zhou Jiwen Lu ViT 44 36 0 04 Jul 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 305 7,443 0 11 Nov 2021
T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression Arash A. Amini Arul Selvam Periyasamy Sven Behnke ViT 56 28 0 22 Sep 2021
Pix2seq: A Language Modeling Framework for Object Detection Ting-Li Chen Saurabh Saxena Lala Li David J. Fleet Geoffrey E. Hinton MLLM ViT VLM 241 344 0 22 Sep 2021
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 271 2,603 0 04 May 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 277 3,623 0 24 Feb 2021
Bottleneck Transformers for Visual Recognition A. Srinivas Tsung-Yi Lin Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani SLR 290 979 0 27 Jan 2021