OneFormer: One Transformer to Rule Universal Image Segmentation

10 November 2022

Papers citing "OneFormer: One Transformer to Rule Universal Image Segmentation"

50 / 73 papers shown

Title
Scene4U: Hierarchical Layered 3D Scene Reconstruction from Single Panoramic Image for Your Immerse Exploration Zilong Huang Jun-Jian He Junyan Ye Lihan Jiang Weijia Li Yuxiao Chen Ting Han 116 0 0 01 Apr 2025
Towards High-performance Spiking Transformers from ANN to SNN Conversion Zihan Huang Xinyu Shi Zecheng Hao Tong Bu Jianhao Ding Zhaofei Yu Tiejun Huang 177 7 0 28 Feb 2025
LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation Shuai Yang Jing Tan Mengchen Zhang Tong Wu Yongqian Li Gordon Wetzstein Ziwei Liu Dahua Lin MDE VGen 127 8 0 24 Feb 2025
Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation Prasun Roy Saumik Bhattacharya Subhankar Ghosh Umapada Pal Michael Blumenstein 93 0 0 20 Feb 2025
Automatic Labelling & Semantic Segmentation with 4D Radar Tensors Botao Sun Ignacio Roldan Francesco Fioranelli 74 0 0 20 Jan 2025
MGNiceNet: Unified Monocular Geometric Scene Understanding Markus Schön Michael Buchholz Klaus C. J. Dietmayer 3DPC 231 0 0 18 Nov 2024
ShadowMamba: State-Space Model with Boundary-Region Selective Scan for Shadow Removal Xiujin Zhu Chee-Onn Chow Joon Huang Chuah Mamba 78 0 0 05 Nov 2024
Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes Jianqi Chen Panwen Hu Xiaojun Chang Z. Shi Michael C. Kampffmeyer Xiaodan Liang 108 10 0 14 Oct 2024
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions Weifeng Lin Xinyu Wei Renrui Zhang Le Zhuo Shitian Zhao ... Junlin Xie Junlin Xie Yu Qiao Peng Gao Hongsheng Li MLLM DiffM 122 13 0 23 Sep 2024
COCO-OLAC: A Benchmark for Occluded Panoptic Segmentation and Image Understanding Wenbo Wei Jun Wang Abhir Bhalerao 367 0 0 19 Sep 2024
Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference Huy-Dung Nguyen Anass Bairouk Mirjana Maras Wei Xiao Tsun-Hsuan Wang Patrick Chareyre Ramin Hasani Marc Blanchon Daniela Rus 95 1 0 16 Sep 2024
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining Dongyang Liu Shitian Zhao Le Zhuo Weifeng Lin Ping Luo Xinyue Li Qi Qin Yu Qiao Hongsheng Li Peng Gao MLLM 128 54 0 05 Aug 2024
A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling Minghao Zhou Hong Wang Yefeng Zheng Deyu Meng 190 1 0 02 Jul 2024
GMT: Guided Mask Transformer for Leaf Instance Segmentation Feng Chen Sotirios A. Tsaftaris M. Giuffrida 57 1 0 24 Jun 2024
WonderWorld: Interactive 3D Scene Generation from a Single Image Hong-Xing Yu Haoyi Duan Charles Herrmann William T. Freeman Jiajun Wu 3DGS VGen 129 43 0 13 Jun 2024
RCDN: Towards Robust Camera-Insensitivity Collaborative Perception via Dynamic Feature-based 3D Neural Modeling Tianhang Wang Fan Lu Zehan Zheng Zhijun Li Changjun Jiang Changjun Jiang 90 3 0 27 May 2024
Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation Abhishek Aich Yumin Suh S. Schulter Manmohan Chandraker 102 0 0 23 Apr 2024
Gen3DSR: Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View Andreea Dogaru M. Ozer Bernhard Egger 3DGS 90 6 0 04 Apr 2024
Subobject-level Image Tokenization Delong Chen Samuel Cahyawijaya Jianfeng Liu Baoyuan Wang Pascale Fung VLM OCL 213 9 0 22 Feb 2024
How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey Fabio Tosi Youming Zhang Ziren Gong Erik Sandström S. Mattoccia Martin R. Oswald Matteo Poggi 3DGS 127 61 0 20 Feb 2024
LMSeg: Language-guided Multi-dataset Segmentation Qiang-feng Zhou Yuang Liu Chaohui Yu Jingliang Li Zhibin Wang Fan Wang VLM 65 19 0 27 Feb 2023
Dilated Neighborhood Attention Transformer Ali Hassani Humphrey Shi ViT MedIm 58 73 0 29 Sep 2022
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks Wenhui Wang Hangbo Bao Li Dong Johan Bjorck Zhiliang Peng ... Kriti Aggarwal O. Mohammed Saksham Singhal Subhojit Som Furu Wei MLLM VLM ViT 133 639 0 22 Aug 2022
CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation Qihang Yu Huiyu Wang Dahun Kim Siyuan Qiao Maxwell D. Collins Yukun Zhu Hartwig Adam Alan Yuille Liang-Chieh Chen ViT MedIm 80 92 0 17 Jun 2022
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation Feng Li Hao Zhang Hu-Sheng Xu Siyi Liu Lei Zhang L. Ni H. Shum ISeg 115 382 0 06 Jun 2022
Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation Yixuan Wei Han Hu Zhenda Xie Zheng Zhang Yue Cao Jianmin Bao Dong Chen B. Guo CLIP 125 126 0 27 May 2022
Vision Transformer Adapter for Dense Predictions Zhe Chen Yuchen Duan Wenhai Wang Junjun He Tong Lu Jifeng Dai Yu Qiao 93 561 0 17 May 2022
Neighborhood Attention Transformer Ali Hassani Steven Walton Jiacheng Li Shengjia Li Humphrey Shi ViT AI4TS 81 269 0 14 Apr 2022
Conditional Prompt Learning for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VLM CLIP VPVLM 117 1,348 0 10 Mar 2022
DN-DETR: Accelerate DETR Training by Introducing Query DeNoising Feng Li Hao Zhang Shi-guang Liu Jian Guo L. Ni Lei Zhang ViT 122 674 0 02 Mar 2022
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 282 522 0 22 Feb 2022
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR Shilong Liu Feng Li Hao Zhang Xiaohu Yang Xianbiao Qi Hang Su Jun Zhu Lei Zhang ViT 280 755 0 28 Jan 2022
A ConvNet for the 2020s Zhuang Liu Hanzi Mao Chaozheng Wu Christoph Feichtenhofer Trevor Darrell Saining Xie ViT 159 5,167 0 10 Jan 2022
Masked-attention Mask Transformer for Universal Image Segmentation Bowen Cheng Ishan Misra Alex Schwing Alexander Kirillov Rohit Girdhar ISeg 217 2,358 0 02 Dec 2021
Swin Transformer V2: Scaling Up Capacity and Resolution Ze Liu Han Hu Yutong Lin Zhuliang Yao Zhenda Xie ... Yue Cao Zheng Zhang Li Dong Furu Wei B. Guo ViT 207 1,809 0 18 Nov 2021
Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers Zhiqi Li Wenhai Wang Enze Xie Zhiding Yu Anima Anandkumar J. Álvarez Ping Luo Tong Lu ViT 130 139 0 08 Sep 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 479 2,394 0 02 Sep 2021
FaPN: Feature-aligned Pyramid Network for Dense Image Prediction Shihua Huang Zhichao Lu Ran Cheng Cheng He 40 207 0 16 Aug 2021
Per-Pixel Classification is Not All You Need for Semantic Segmentation Bowen Cheng Alex Schwing Alexander Kirillov VLM ViT 204 1,532 0 13 Jul 2021
Polarized Self-Attention: Towards High-quality Pixel-wise Regression Huajun Liu Fuqiang Liu Xinyi Fan Dong Huang 126 217 0 02 Jul 2021
Simple Training Strategies and Model Scaling for Object Detection Xianzhi Du Barret Zoph Wei-Chih Hung Nayeon Lee ObjD 76 40 0 30 Jun 2021
K-Net: Towards Unified Image Segmentation Wenwei Zhang Jiangmiao Pang Kai-xiang Chen Chen Change Loy ISeg 62 368 0 28 Jun 2021
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers Enze Xie Wenhai Wang Zhiding Yu Anima Anandkumar J. Álvarez Ping Luo ViT 270 5,017 0 31 May 2021
Segmenter: Transformer for Semantic Segmentation Robin Strudel Ricardo Garcia Pinel Ivan Laptev Cordelia Schmid ViT 196 1,464 0 12 May 2021
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Ze Liu Yutong Lin Yue Cao Han Hu Yixuan Wei Zheng Zhang Stephen Lin B. Guo ViT 439 21,392 0 25 Mar 2021
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Huayu Chen A. Srinivas Rui Qian Nayeon Lee E. D. Cubuk Quoc V. Le Barret Zoph ISeg 286 990 0 13 Dec 2020
MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers Huiyu Wang Yukun Zhu Hartwig Adam Alan Yuille Liang-Chieh Chen ViT 104 530 0 01 Dec 2020
Scaling Wide Residual Networks for Panoptic Segmentation Liang-Chieh Chen Huiyu Wang Siyuan Qiao SSeg 63 48 0 23 Nov 2020
Deformable DETR: Deformable Transformers for End-to-End Object Detection Xizhou Zhu Weijie Su Lewei Lu Bin Li Xiaogang Wang Jifeng Dai ViT 211 5,068 0 08 Oct 2020
End-to-End Object Detection with Transformers Nicolas Carion Francisco Massa Gabriel Synnaeve Nicolas Usunier Alexander Kirillov Sergey Zagoruyko ViT 3DV PINN 377 13,025 0 26 May 2020