DaViT: Dual Attention Vision Transformers

7 April 2022

Mingyu Ding

Bin Xiao

Noel Codella

Ping Luo

Jingdong Wang

Lu Yuan

ViT

ArXiv PDF HTML

Papers citing "DaViT: Dual Attention Vision Transformers"

50 / 128 papers shown

Title
Advancing Vision Transformers with Group-Mix Attention Chongjian Ge Xiaohan Ding Zhan Tong Li Yuan Jiangliu Wang Yibing Song Ping Luo 112 16 0 26 Nov 2023
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks Bin Xiao Haiping Wu Weijian Xu Xiyang Dai Houdong Hu Yumao Lu Michael Zeng Ce Liu Lu Yuan VLM 45 143 0 10 Nov 2023
GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation Xuwei Xu Sen Wang Yudong Chen Yanping Zheng Zhewei Wei Jiajun Liu ViT 27 8 0 06 Nov 2023
Scattering Vision Transformer: Spectral Mixing Matters Badri N. Patro Vijay Srinivas Agneeswaran 37 14 0 02 Nov 2023
Triplet Attention Transformer for Spatiotemporal Predictive Learning Xuesong Nie Xi Chen Haoyuan Jin Zhihang Zhu Yunfeng Yan Donglian Qi ViT 19 10 0 28 Oct 2023
Watt For What: Rethinking Deep Learning's Energy-Performance Relationship Shreyank N. Gowda Xinyue Hao Gen Li Laura Sevilla-Lara Shashank Narayana Gowda HAI 13 10 0 10 Oct 2023
Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision Transformers Xuwei Xu Sen Wang Yudong Chen Jiajun Liu ViT 21 1 0 09 Oct 2023
Low-Resolution Self-Attention for Semantic Segmentation Yu-Huan Wu Shi-Chen Zhang Yun-Hai Liu Le Zhang Xin Zhan Daquan Zhou Jiashi Feng Ming-Ming Cheng Liangli Zhen ViT 45 3 0 08 Oct 2023
IFAST: Weakly Supervised Interpretable Face Anti-spoofing from Single-shot Binocular NIR Images Jiancheng Huang Donghao Zhou Shifeng Chen CVBM 42 2 0 29 Sep 2023
TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance Kan Wu Houwen Peng Zhenghong Zhou Bin Xiao Mengchen Liu ... Xi Xi Chen Xinggang Wang Hongyang Chao Han Hu VLM OODD 29 53 0 21 Sep 2023
RMT: Retentive Networks Meet Vision Transformers Qihang Fan Huaibo Huang Mingrui Chen Hongmin Liu Ran He ViT 43 75 0 20 Sep 2023
NoisyNN: Exploring the Influence of Information Entropy Change in Learning Systems Xiao-Xing Yu Zhe Huang Yao Xue Lu Zhang Li Wang Tianming Liu Dajiang Zhu 24 6 0 19 Sep 2023
MCM: Multi-condition Motion Synthesis Framework for Multi-scenario Zeyu Ling Bo Han Yongkang Wong Mohan S. Kankanhalli Weidong Geng DiffM 21 6 0 06 Sep 2023
A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking Lorenzo Papa Paolo Russo Irene Amerini Luping Zhou 30 42 0 05 Sep 2023
DAT++: Spatially Dynamic Vision Transformer with Deformable Attention Zhuofan Xia Xuran Pan Shiji Song Li Erran Li Gao Huang ViT 27 24 0 04 Sep 2023
Dual Aggregation Transformer for Image Super-Resolution Zheng Chen Yulun Zhang Jinjin Gu L. Kong Xiaokang Yang F. I. F. Richard Yu ViT 22 167 0 07 Aug 2023
ARC-NLP at Multimodal Hate Speech Event Detection 2023: Multimodal Methods Boosted by Ensemble Learning, Syntactical and Entity Features Umitcan Sahin Izzet Emre Kucukkaya Oguzhan Ozcelik Cagri Toraman 35 10 0 25 Jul 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang F. Khan VLM 38 118 0 25 Jul 2023
A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future Chaoyang Zhu Long Chen ObjD VLM 31 32 0 18 Jul 2023
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training Z. Chen Mingyu Ding Yikang Shen Wei Zhan M. Tomizuka Erik Learned-Miller Chuang Gan MoE 24 8 0 29 Jun 2023
Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation Zhongwei Qiu Qiansheng Yang Jian Wang Xiyu Wang Chang Xu Dongmei Fu Kun Yao Junyu Han Errui Ding Jingdong Wang DiffM 28 13 0 29 Jun 2023
Physion++: Evaluating Physical Scene Understanding that Requires Online Inference of Different Physical Properties H. Tung Mingyu Ding Zhenfang Chen Daniel M. Bear Chuang Gan J. Tenenbaum Daniel L. K. Yamins Judy Fan Kevin A. Smith 68 13 0 27 Jun 2023
Reviving Shift Equivariance in Vision Transformers Peijian Ding Davit Soselia Thomas Armstrong Jiahao Su Furong Huang 19 6 0 13 Jun 2023
Recent Advances of Local Mechanisms in Computer Vision: A Survey and Outlook of Recent Work Qiangchang Wang Yilong Yin 23 0 0 02 Jun 2023
Doubly Robust Self-Training Banghua Zhu Mingyu Ding P. Jacobson Ming Wu Wei Zhan Michael I. Jordan Jiantao Jiao 13 6 0 01 Jun 2023
Lightweight Vision Transformer with Bidirectional Interaction Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He ViT 50 28 0 01 Jun 2023
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Sihan Chen Handong Li Qunbo Wang Zijia Zhao Ming-Ting Sun Xinxin Zhu Jiaheng Liu 32 97 0 29 May 2023
Comparative Analysis of Deep Learning Models for Brand Logo Classification in Real-World Scenarios Qimao Yang Huilin Chen Qiwei Dong VLM 19 0 0 20 May 2023
CARD: Channel Aligned Robust Blend Transformer for Time Series Forecasting Xue Wang Tian Zhou Qingsong Wen Jinyang Gao Bolin Ding Rong Jin AI4TS 26 38 0 20 May 2023
Reciprocal Attention Mixing Transformer for Lightweight Image Restoration Haram Choi Cheolwoong Na Jihyeon Oh Seungjae Lee Jinseop S. Kim Subeen Choe Jeongmin Lee Taehoon Kim Jihoon Yang 51 5 0 19 May 2023
Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality Jialing Yuan Ye Yu Gaurav Mittal Matthew Hall Sandra Sajeev Mei Chen 17 9 0 17 May 2023
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Sihan Chen Xingjian He Longteng Guo Xinxin Zhu Weining Wang Jinhui Tang Jinhui Tang VLM 31 102 0 17 Apr 2023
Segment Everything Everywhere All at Once Xueyan Zou Jianwei Yang Hao Zhang Feng Li Linjie Li Jianfeng Wang Lijuan Wang Jianfeng Gao Yong Jae Lee MLLM VLM 9 458 0 13 Apr 2023
SpectFormer: Frequency and Attention is what you need in a Vision Transformer Badri N. Patro Vinay P. Namboodiri Vijay Srinivas Agneeswaran ViT 35 47 0 13 Apr 2023
Embodied Concept Learner: Self-supervised Learning of Concepts and Mapping through Instruction Following Mingyu Ding Yan Xu Zhenfang Chen David D. Cox Ping Luo J. Tenenbaum Chuang Gan LM&Ro 59 21 0 07 Apr 2023
A Cross-Scale Hierarchical Transformer with Correspondence-Augmented Attention for inferring Bird's-Eye-View Semantic Segmentation N. Fang Le-miao Qiu Shuyou Zhang Zili Wang Kerui Hu Kang Wang 24 5 0 07 Apr 2023
Visual Dependency Transformers: Dependency Tree Emerges from Reversed Attention Mingyu Ding Yikang Shen Lijie Fan Zhenfang Chen Z. Chen Ping Luo J. Tenenbaum Chuang Gan ViT 84 14 0 06 Apr 2023
Towards an Effective and Efficient Transformer for Rain-by-snow Weather Removal Tao Gao Yuanbo Wen Kaihao Zhang Peng Cheng Ting Chen ViT 33 5 0 06 Apr 2023
Rethinking Local Perception in Lightweight Vision Transformer Qi Fan Huaibo Huang Jiyang Guan Ran He ViT 31 30 0 31 Mar 2023
Dual Cross-Attention for Medical Image Segmentation Gorkem Can Ates P. Mohan Emrah Çelik 14 74 0 30 Mar 2023
Vision Transformer with Quadrangle Attention Qiming Zhang Jing Zhang Yufei Xu Dacheng Tao ViT 24 38 0 27 Mar 2023
CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale Attention Wenxiao Wang Wei Chen Qibo Qiu Long Chen Boxi Wu Binbin Lin Xiaofei He Wei Liu 32 38 0 13 Mar 2023
Image as Set of Points Xu Ma Yuqian Zhou Huan Wang Can Qin Bin Sun Chang Liu Yun Fu VLM 48 49 0 02 Mar 2023
Transformadores: Fundamentos teoricos y Aplicaciones J. D. L. Torre 78 0 0 18 Feb 2023
Efficiency 360: Efficient Vision Transformers Badri N. Patro Vijay Srinivas Agneeswaran 26 6 0 16 Feb 2023
Advances in Medical Image Analysis with Vision Transformers: A Comprehensive Review Reza Azad A. Kazerouni Moein Heidari Ehsan Khodapanah Aghdam Amir Molaei Yiwei Jia Abin Jose Rijo Roy Dorit Merhof MedIm ViT 41 161 0 09 Jan 2023
DAE-Former: Dual Attention-guided Efficient Transformer for Medical Image Segmentation Reza Azad René Arimond Ehsan Khodapanah Aghdam Amirhosein Kazerouni Dorit Merhof ViT MedIm 26 78 0 27 Dec 2022
Generalized Decoding for Pixel, Image, and Language Xueyan Zou Zi-Yi Dou Jianwei Yang Zhe Gan Linjie Li ... Lu Yuan Nanyun Peng Lijuan Wang Yong Jae Lee Jianfeng Gao VLM MLLM ObjD 21 241 0 21 Dec 2022
GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group Propagation Chenhongyi Yang Jiarui Xu Shalini De Mello Elliot J. Crowley Xinyu Wang ViT 38 21 0 13 Dec 2022
Finding Differences Between Transformers and ConvNets Using Counterfactual Simulation Testing Nataniel Ruiz Sarah Adel Bargal Cihang Xie Kate Saenko Stan Sclaroff ViT 36 5 0 29 Nov 2022