Vision Transformer Adapter for Dense Predictions

17 May 2022

Yu Qiao

Papers citing "Vision Transformer Adapter for Dense Predictions"

50 / 120 papers shown

Title
Locality-Aware Zero-Shot Human-Object Interaction Detection Sanghyun Kim Deunsol Jung Minsu Cho VLM 164 0 0 26 May 2025
A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images Hengtong Shen Haiyan Gu Haitao Li Yi Yang Agen qiu SSL 128 0 0 26 May 2025
Semantic segmentation with reward Xie Ting Ye Huang Zhilin Liu Lixin Duan 287 0 0 23 May 2025
Dynadiff: Single-stage Decoding of Images from Continuously Evolving fMRI Marlène Careil Yohann Benchetrit Jean-Rémi King 188 0 0 20 May 2025
Image Recognition with Online Lightweight Vision Transformer: A Survey Zherui Zhang Rongtao Xu Jie Zhou Changwei Wang Xingtian Pei ... Jiguang Zhang Li Guo Longxiang Gao Wenyuan Xu Shibiao Xu ViT 461 0 0 06 May 2025
Pets: General Pattern Assisted Architecture For Time Series Analysis Xiangkai Ma Xiaobin Hong Wenzhong Li Sanglu Lu AI4TS 168 0 0 19 Apr 2025
Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation Xiaoxing Hu Ziyang Gong Yansen Wang Yuru Jia Gen Luo Xue Yang 411 0 0 08 Apr 2025
HGFormer: Topology-Aware Vision Transformer with HyperGraph Learning Hao Wang Shuo Zhang Biao Leng ViT 255 1 0 03 Apr 2025
Large (Vision) Language Models are Unsupervised In-Context Learners Artyom Gadetsky Andrei Atanov Yulun Jiang Zhitong Gao Ghazal Hosseini Mighan Amir Zamir Maria Brbić VLM MLLM LRM 234 0 0 03 Apr 2025
Rip Current Segmentation: A Novel Benchmark and YOLOv8 Baseline Results Andrei Dumitriu Florin Tatui Florin Miron Radu Tudor Ionescu Radu Timofte 202 24 0 03 Apr 2025
A Multi-Agent Framework Integrating Large Language Models and Generative AI for Accelerated Metamaterial Design Jie Tian Martin Taylor Sobczak Dhanush Patil Jixin Hou Lin Pang ... Yuval Golan Xiaoming Zhai Hongyue Sun Kenan Song Xiaobei Wang LLMAG AI4CE 108 0 0 25 Mar 2025
A Lightweight and Extensible Cell Segmentation and Classification Model for Whole Slide Images N. Shvetsov T. Kilvaer M. Tafavvoghi Anders Sildnes Kajsa Møllersen Lill-ToveRasmussen Busund L. A. Bongo VLM 104 1 0 26 Feb 2025
VesselSAM: Leveraging SAM for Aortic Vessel Segmentation with LoRA and Atrous Attention Adnan Iltaf Rayan Merghani Ahmed Bin Li Bin Li Shoujun Zhou 113 0 0 25 Feb 2025
MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval Haoran Tang Meng Cao Jinfa Huang Ruyang Liu Peng Jin Ge Li Xiaodan Liang Mamba 155 4 0 24 Feb 2025
UNIP: Rethinking Pre-trained Attention Patterns for Infrared Semantic Segmentation Tao Zhang Jinyong Wen Zhen Chen Kun Ding Di Zhang Chunhong Pan 231 1 0 04 Feb 2025
MADation: Face Morphing Attack Detection with Foundation Models Eduarda Caldeira Guray Ozgur Tahar Chettaoui Marija Ivanovska Peter Peer Fadi Boutros Vitomir Štruc Naser Damer CVBM 76 2 1 28 Jan 2025
Parameter-Efficient Fine-Tuning for Foundation Models Dan Zhang Tao Feng Lilong Xue Yuandong Wang Yuxiao Dong J. Tang 189 11 0 23 Jan 2025
Editable-DeepSC: Reliable Cross-Modal Semantic Communications for Facial Editing Bin Chen Wenbo Yu Qinshan Zhang Tianqu Zhuang Yong Jiang Shu-Tao Xia 266 0 0 24 Nov 2024
FRoundation: Are Foundation Models Ready for Face Recognition? Tahar Chettaoui Naser Damer Fadi Boutros CVBM 69 8 0 31 Oct 2024
Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies Liwen Wang Sheng Chen Linnan Jiang Shu Pan Runze Cai Sen Yang Fei Yang 135 5 0 24 Oct 2024
Locality Alignment Improves Vision-Language Models Ian Covert Tony Sun James Zou Tatsunori Hashimoto VLM 231 6 0 14 Oct 2024
Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes Jianqi Chen Panwen Hu Xiaojun Chang Z. Shi Michael C. Kampffmeyer Xiaodan Liang 118 6 0 14 Oct 2024
Learning Spatial-Semantic Features for Robust Video Object Segmentation Xin Li Deshui Miao Zhenyu He Yansen Wang Huchuan Lu Ming-Hsuan Yang VOS 138 4 0 10 Jul 2024
ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts Samar Khanna Medhanie Irgau David B. Lobell Stefano Ermon VLM 83 5 0 16 Jun 2024
Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation Ya Lu Jishnu Jaykumar Yunhui Guo Nicholas Ruozzi Yu Xiang VLM ISeg 107 5 0 28 May 2024
Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission Mingyu Yang Bowen Liu Boyang Wang Hun-Seok Kim DiffM 81 6 0 27 Apr 2024
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures Yuchen Duan Weiyun Wang Zhe Chen Xizhou Zhu Lewei Lu Tong Lu Yu Qiao Hongsheng Li Jifeng Dai Wenhai Wang ViT 70 48 0 04 Mar 2024
Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey Yi Xin Jianjiang Yang Haodi Zhou Junlong Du Junlong Du Yue Fan Qing Li Qing Li Yuntao Du VLM 104 82 0 03 Feb 2024
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks Wenhui Wang Hangbo Bao Li Dong Johan Bjorck Zhiliang Peng ... Kriti Aggarwal O. Mohammed Saksham Singhal Subhojit Som Furu Wei MLLM VLM ViT 139 642 0 22 Aug 2022
BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers Zhiliang Peng Li Dong Hangbo Bao QiXiang Ye Furu Wei 66 319 0 12 Aug 2022
HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions Yongming Rao Wenliang Zhao Yansong Tang Jie Zhou Ser-Nam Lim Jiwen Lu ViT 100 254 0 28 Jul 2022
Convolutional Bypasses Are Better Vision Transformer Adapters Shibo Jie Zhi-Hong Deng VPVLM 61 133 0 14 Jul 2022
Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs Jinguo Zhu Xizhou Zhu Wenhai Wang Xiaohua Wang Hongsheng Li Xiaogang Wang Jifeng Dai MoMe MoE 61 69 0 09 Jun 2022
Neural Prompt Search Yuanhan Zhang Kaiyang Zhou Ziwei Liu VPVLM VLM 101 150 0 09 Jun 2022
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation Feng Li Hao Zhang Hu-Sheng Xu Siyi Liu Lei Zhang L. Ni H. Shum ISeg 122 384 0 06 Jun 2022
Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation Yixuan Wei Han Hu Zhenda Xie Zheng Zhang Yue Cao Jianmin Bao Dong Chen B. Guo CLIP 134 126 0 27 May 2022
AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition Shoufa Chen Chongjian Ge Zhan Tong Jiangliu Wang Yibing Song Jue Wang Ping Luo 203 683 0 26 May 2022
Inception Transformer Chenyang Si Weihao Yu Pan Zhou Yichen Zhou Xinchao Wang Shuicheng Yan ViT 99 193 0 25 May 2022
Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection Yuxin Fang Shusheng Yang Shijie Wang Yixiao Ge Ying Shan Xinggang Wang 81 56 0 06 Apr 2022
Region Rebalance for Long-Tailed Semantic Segmentation Jiequan Cui Yuhui Yuan Zhisheng Zhong Zhuotao Tian Han Hu Stephen Lin Jiaya Jia 58 18 0 05 Apr 2022
Exploring Visual Prompts for Adapting Large-Scale Models Hyojin Bahng Ali Jahanian S. Sankaranarayanan Phillip Isola VLM VPVLM LRM 68 271 0 31 Mar 2022
Exploring Plain Vision Transformer Backbones for Object Detection Yanghao Li Hanzi Mao Ross B. Girshick Kaiming He ViT 90 808 0 30 Mar 2022
StructToken : Rethinking Semantic Segmentation with Structural Prior Fangjian Lin Zhanhao Liang Miao Zheng Junjun He Kaibing Chen Sheng Tian 52 51 0 23 Mar 2022
Visual Prompt Tuning Menglin Jia Luming Tang Bor-Chun Chen Claire Cardie Serge Belongie Bharath Hariharan Ser-Nam Lim VLM VPVLM 148 1,627 0 23 Mar 2022
CAR: Class-aware Regularizations for Semantic Segmentation Ye Huang Di Kang Liang Chen Xuefei Zhe W. Jia Xiangjian He Linchao Bao 85 17 0 14 Mar 2022
How Do Vision Transformers Work? Namuk Park Songkuk Kim ViT 81 481 0 14 Feb 2022
data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language Alexei Baevski Wei-Ning Hsu Qiantong Xu Arun Babu Jiatao Gu Michael Auli SSL VLM ViT 97 858 0 07 Feb 2022
UniFormer: Unifying Convolution and Self-attention for Visual Recognition Kunchang Li Yali Wang Junhao Zhang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 189 379 0 24 Jan 2022
A ConvNet for the 2020s Zhuang Liu Hanzi Mao Chaozheng Wu Christoph Feichtenhofer Trevor Darrell Saining Xie ViT 162 5,171 0 10 Jan 2022
Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention Sitong Wu Tianyi Wu Hao Hao Tan G. Guo ViT 56 71 0 28 Dec 2021