InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding

8 June 2023

Papers citing "InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding"

15 / 15 papers shown

Title
Multi-Task Label Discovery via Hierarchical Task Tokens for Partially Annotated Dense Predictions Jingdong Zhang Hanrong Ye Xin Li Wenping Wang Dan Xu 72 1 0 27 Nov 2024
Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning Yuxiang Lu Shengcao Cao Yu-xiong Wang 55 1 0 18 Oct 2024
MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders Baijiong Lin Weisen Jiang Pengguang Chen Shu Liu Ying-Cong Chen Mamba 40 1 0 27 Aug 2024
Elite360M: Efficient 360 Multi-task Learning via Bi-projection Fusion and Cross-task Collaboration Hao Ai Lin Wang 35 0 0 18 Aug 2024
DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data Hanrong Ye Dan Xu DiffM 60 4 0 22 Mar 2024
FedHCA $^2$ : Towards Hetero-Client Federated Multi-Task Learning Yuxiang Lu Suizhi Huang Yuwen Yang Shalayiding Sirejiding Yue Ding Hongtao Lu FedML 50 3 0 22 Nov 2023
Prompt Guided Transformer for Multi-Task Dense Prediction Yuxiang Lu Shalayiding Sirejiding Yue Ding Chunlin Wang Hongtao Lu 44 18 0 28 Jul 2023
Universal Few-shot Learning of Dense Prediction Tasks with Visual Token Matching Donggyun Kim Jinwoo Kim Seongwoong Cho Chong Luo Seunghoon Hong VLM 53 23 0 27 Mar 2023
MulT: An End-to-End Multitask Learning Transformer Deblina Bhattacharjee Tong Zhang Sabine Süsstrunk Mathieu Salzmann ViT 42 63 0 17 May 2022
Are Transformers More Robust Than CNNs? Yutong Bai Jieru Mei Alan Yuille Cihang Xie ViT AAML 192 258 0 10 Nov 2021
Pix2seq: A Language Modeling Framework for Object Detection Ting-Li Chen Saurabh Saxena Lala Li David J. Fleet Geoffrey E. Hinton MLLM ViT VLM 244 344 0 22 Sep 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 316 1,524 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 316 3,625 0 24 Feb 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,796 0 24 Feb 2021
Bottleneck Transformers for Visual Recognition A. Srinivas Nayeon Lee Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani SLR 290 980 0 27 Jan 2021