Wave-ViT: Unifying Wavelet and Transformers for Visual Representation Learning

11 July 2022

Ting Yao

Yingwei Pan

Yehao Li

Chong-Wah Ngo

Tao Mei

ViT

ArXiv PDF HTML

Papers citing "Wave-ViT: Unifying Wavelet and Transformers for Visual Representation Learning"

22 / 22 papers shown

Title
WaveDH: Wavelet Sub-bands Guided ConvNet for Efficient Image Dehazing Seongmin Hwang Daeyoung Han Cheolkon Jung Moongu Jeon 75 5 0 20 Jan 2025
DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation Hao Phung Quan Dao T. Dao Hoang Phan Dimitris Metaxas Anh Tran Mamba 64 4 0 06 Nov 2024
Wavelet-Based Image Tokenizer for Vision Transformers Zhenhai Zhu Radu Soricut ViT 50 3 0 28 May 2024
HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs Ting Yao Yehao Li Yingwei Pan Tao Mei ViT 28 15 0 18 Mar 2024
FViT: A Focal Vision Transformer with Gabor Filter Yulong Shi Mingwei Sun Yongshuai Wang Rui Wang 55 4 0 17 Feb 2024
ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors Jingwen Chen Yingwei Pan Ting Yao Tao Mei DiffM 31 38 0 09 Nov 2023
Control3D: Towards Controllable Text-to-3D Generation Yang Chen Yingwei Pan Yehao Li Ting Yao Tao Mei DiffM 25 45 0 09 Nov 2023
Auxiliary Features-Guided Super Resolution for Monte Carlo Rendering Qiqi Hou Feng Liu SupR 19 4 0 20 Oct 2023
Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers Tobias Christian Nauen Sebastián M. Palacio Federico Raue Andreas Dengel 42 3 0 18 Aug 2023
Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models Xin Yuan Linjie Li Jianfeng Wang Zhengyuan Yang Kevin Qinghong Lin Zicheng Liu Lijuan Wang DiffM 57 6 0 27 Jul 2023
Guided Patch-Grouping Wavelet Transformer with Spatial Congruence for Ultra-High Resolution Segmentation Deyi Ji Feng Zhao Hongtao Lu ViT 52 15 0 03 Jul 2023
Lightweight Vision Transformer with Bidirectional Interaction Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He ViT 44 28 0 01 Jun 2023
Efficiency 360: Efficient Vision Transformers Badri N. Patro Vijay Srinivas Agneeswaran 26 6 0 16 Feb 2023
Hierarchical Local-Global Transformer for Temporal Sentence Grounding Xiang Fang Daizong Liu Pan Zhou Zichuan Xu Rui Li 19 28 0 31 Aug 2022
Jigsaw-ViT: Learning Jigsaw Puzzles in Vision Transformer Yingyi Chen Xiaoke Shen Yahui Liu Qinghua Tao Johan A. K. Suykens AAML ViT 28 22 0 25 Jul 2022
Dual Vision Transformer Ting Yao Yehao Li Yingwei Pan Yu Wang Xiaoping Zhang Tao Mei ViT 141 75 0 11 Jul 2022
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 284 1,524 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 277 3,623 0 24 Feb 2021
Bottleneck Transformers for Visual Recognition A. Srinivas Nayeon Lee Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani SLR 290 979 0 27 Jan 2021
Deep High-Resolution Representation Learning for Visual Recognition Jingdong Wang Ke Sun Tianheng Cheng Borui Jiang Chaorui Deng ... Yadong Mu Mingkui Tan Xinggang Wang Wenyu Liu Bin Xiao 195 3,531 0 20 Aug 2019
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,220 0 16 Nov 2016
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 253 1,828 0 18 Aug 2016