End-to-End Video Instance Segmentation with Transformers

30 November 2020

Chunhua Shen

Papers citing "End-to-End Video Instance Segmentation with Transformers"

50 / 166 papers shown

Title
Grafting Vision Transformers Jong Sung Park Kumara Kahatapitiya Donghyun Kim Shivchander Sudalairaj Quanfu Fan Michael S. Ryoo ViT 26 2 0 28 Oct 2022
S2WAT: Image Style Transfer via Hierarchical Vision Transformer using Strips Window Attention Chi Zhang Xiaogang Xu Lei Wang Zaiyan Dai Jun Yang ViT 29 23 0 22 Oct 2022
Rethinking Learning Approaches for Long-Term Action Anticipation Megha Nawhal Akash Abdu Jyothi Greg Mori AI4TS 36 26 0 20 Oct 2022
BURST: A Benchmark for Unifying Object Recognition, Segmentation and Tracking in Video A. Athar Jonathon Luiten P. Voigtlaender Tarasha Khurana Achal Dave Bastian Leibe Deva Ramanan VOS VLM 18 57 0 25 Sep 2022
Graph Reasoning Transformer for Image Parsing Dong Zhang Jinhui Tang Kwang-Ting Cheng ViT 24 16 0 20 Sep 2022
PPT: token-Pruned Pose Transformer for monocular and multi-view human pose estimation Haoyu Ma Zhe Wang Yifei Chen Deying Kong Liangjian Chen Xingwei Liu Xiangyi Yan Hao Tang Xiaohui Xie ViT 35 47 0 16 Sep 2022
PointScatter: Point Set Representation for Tubular Structure Extraction Dong Wang Zhao Zhang Zi-Long Zhao Yuhang Liu Yihong Chen Liwei Wang 3DPC 36 10 0 13 Sep 2022
Transformer-CNN Cohort: Semi-supervised Semantic Segmentation by the Best of Both Students Xueye Zheng Yuan Luo Hao Wang Chong Fu Lin Wang ViT 39 17 0 06 Sep 2022
InstanceFormer: An Online Video Instance Segmentation Framework Rajat Koner Tanveer Hannan Suprosanna Shit Sahand Sharifzadeh Matthias Schubert Thomas Seidl Volker Tresp ViT 24 14 0 22 Aug 2022
Occlusion-Aware Instance Segmentation via BiLayer Network Architectures Lei Ke Yu-Wing Tai Chi-Keung Tang ISeg 27 11 0 08 Aug 2022
DropKey Bonan Li Yinhan Hu Xuecheng Nie Congying Han Xiangjian Jiang Tiande Guo Luoqi Liu 15 11 0 04 Aug 2022
MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training De-An Huang Zhiding Yu Anima Anandkumar VLM 42 78 0 03 Aug 2022
BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring Space for Video Object Segmentation Ye Yu Jialing Yuan Gaurav Mittal Fuxin Li Mei Chen VOS 45 28 0 01 Aug 2022
Video Mask Transfiner for High-Quality Video Instance Segmentation Lei Ke Henghui Ding Martin Danelljan Yu-Wing Tai Chi-Keung Tang F. I. F. Richard Yu 19 29 0 28 Jul 2022
Is Attention All That NeRF Needs? T. MukundVarma Peihao Wang Xuxi Chen Tianlong Chen Subhashini Venugopalan Zhangyang Wang ViT 20 107 0 27 Jul 2022
Multi-Attention Network for Compressed Video Referring Object Segmentation Weidong Chen Dexiang Hong Yuankai Qi Zhenjun Han Shuhui Wang Laiyun Qing Qingming Huang Guorong Li VOS 18 35 0 26 Jul 2022
Online Video Instance Segmentation via Robust Context Fusion Xiang Li Jinglu Wang Xiaohao Xu Bhiksha Raj Yan Lu 35 5 0 12 Jul 2022
Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis Long Zhuo Guangcong Wang Shikai Li Wayne Wu Ziwei Liu VGen 53 20 0 11 Jul 2022
VITA: Video Instance Segmentation via Object Token Association Miran Heo Sukjun Hwang Seoung Wug Oh Joon-Young Lee Seon Joo Kim VOS 23 88 0 09 Jun 2022
Multi-Task Learning with Multi-Query Transformer for Dense Prediction Yangyang Xu Xiangtai Li Haobo Yuan Yibo Yang Lefei Zhang ViT 23 45 0 28 May 2022
Do we really need temporal convolutions in action segmentation? Dazhao Du Bing-Huang Su Yu Li Zhongang Qi Lingyu Si Ying Shan ViT 21 16 0 26 May 2022
Cross-Architecture Self-supervised Video Representation Learning Sheng Guo Zihua Xiong Yujie Zhong Limin Wang Xiaobo Guo Bing Han Weilin Huang SSL AI4TS 66 24 0 26 May 2022
VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose Estimation Yuxing Chen Renshu Gu Ouhan Huang Gangyong Jia 3DH 36 11 0 25 May 2022
Siamese Object Tracking for Unmanned Aerial Vehicle: A Review and Comprehensive Analysis Changhong Fu Kunhan Lu Guang-Zheng Zheng Junjie Ye Ziang Cao Bowen Li Geng Lu 19 55 0 09 May 2022
MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries Tianyuan Zhang Xuanyao Chen Yue Wang Yilun Wang Hang Zhao 23 81 0 02 May 2022
Where in the World is this Image? Transformer-based Geo-localization in the Wild Shraman Pramanick E. Nowara Joshua Gleason Carlos D. Castillo Rama Chellappa ViT 18 30 0 29 Apr 2022
Person Re-Identification Mustafa Chasmai Tamajit Banerjee 12 17 0 27 Apr 2022
ClothFormer:Taming Video Virtual Try-on in All Module Jianbin Jiang Tan Wang He Yan Junhui Liu 32 24 0 26 Apr 2022
Fashionformer: A simple, Effective and Unified Baseline for Human Fashion Segmentation and Recognition Shilin Xu Xiangtai Li Jingbo Wang Guangliang Cheng Yunhai Tong Dacheng Tao ViT 23 27 0 10 Apr 2022
PSTR: End-to-End One-Step Person Search With Transformers Jiale Cao Yanwei Pang Rao Muhammad Anwer Hisham Cholakkal J. Xie M. Shah F. Khan ViT 21 49 0 07 Apr 2022
Improving Vision Transformers by Revisiting High-frequency Components Jiawang Bai Liuliang Yuan Shutao Xia Shuicheng Yan Zhifeng Li W. Liu ViT 14 90 0 03 Apr 2022
Human Instance Segmentation and Tracking via Data Association and Single-stage Detector Lu Cheng Mingde Zhao 28 0 0 31 Mar 2022
Give Me Your Attention: Dot-Product Attention Considered Harmful for Adversarial Patch Robustness Giulio Lovisotto Nicole Finnie Mauricio Muñoz Chaithanya Kumar Mummadi J. H. Metzen AAML ViT 22 32 0 25 Mar 2022
Focal Modulation Networks Jianwei Yang Chunyuan Li Xiyang Dai Lu Yuan Jianfeng Gao 3DPC 24 263 0 22 Mar 2022
End-to-End Video Text Spotting with Transformer Weijia Wu Yuanqiang Cai Chunhua Shen Debing Zhang Ying Fu Hong Zhou Ping Luo ViT 50 24 0 20 Mar 2022
Local-Global Context Aware Transformer for Language-Guided Video Segmentation Chen Liang Wenguan Wang Tianfei Zhou Jiaxu Miao Yawei Luo Yi Yang VOS 29 74 0 18 Mar 2022
Towards Data-Efficient Detection Transformers Wen Wang Jing Zhang Yang Cao Yongliang Shen Dacheng Tao ViT 20 59 0 17 Mar 2022
EDTER: Edge Detection with Transformer Mengyang Pu Yaping Huang Yuming Liu Q. Guan Haibin Ling ViT 11 98 0 16 Mar 2022
End-to-End Modeling via Information Tree for One-Shot Natural Language Spatial Video Grounding Meng Li Tianbao Wang Haoyu Zhang Shengyu Zhang Zhou Zhao ... Wenming Tan Jin Wang Peng Wang Shi Pu Fei Wu 21 45 0 15 Mar 2022
Deep Transformers Thirst for Comprehensive-Frequency Data R. Xia Chao Xue Boyu Deng Fang Wang Jingchao Wang ViT 25 0 0 14 Mar 2022
DFTR: Depth-supervised Fusion Transformer for Salient Object Detection Heqin Zhu Xu Sun Yuexiang Li Kai Ma S. Kevin Zhou Yefeng Zheng ViT 41 9 0 12 Mar 2022
One-stage Video Instance Segmentation: From Frame-in Frame-out to Clip-in Clip-out Minghan Li Lei Zhang CLIP VLM 36 1 0 12 Mar 2022
The Principle of Diversity: Training Stronger Vision Transformers Calls for Reducing All Levels of Redundancy Tianlong Chen Zhenyu (Allen) Zhang Yu Cheng Ahmed Hassan Awadallah Zhangyang Wang ViT 35 37 0 12 Mar 2022
Deformable VisTR: Spatio temporal deformable attention for video instance segmentation Sudhir Yarram Jialian Wu Pan Ji Yi Tian Xu Junsong Yuan ViT 22 2 0 12 Mar 2022
Representation Compensation Networks for Continual Semantic Segmentation Chang-Bin Zhang Jianqiang Xiao Xialei Liu Ying-Cong Chen Mingg-Ming Cheng SSeg CLL 37 93 0 10 Mar 2022
Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain Analysis: From Theory to Practice Peihao Wang Wenqing Zheng Tianlong Chen Zhangyang Wang ViT 22 127 0 09 Mar 2022
RankSeg: Adaptive Pixel Classification with Image Category Ranking for Segmentation Hao He Yuhui Yuan Xiangyu Yue Han Hu VOS VLM 22 13 0 08 Mar 2022
End-to-end video instance segmentation via spatial-temporal graph neural networks Tao Wang Ning Xu Kean Chen Weiyao Lin 36 24 0 07 Mar 2022
MetaFormer: A Unified Meta Framework for Fine-Grained Recognition Qishuai Diao Yi-Xin Jiang Bin Wen Jianxiang Sun Zehuan Yuan 31 60 0 05 Mar 2022
Boosting Crowd Counting via Multifaceted Attention Hui Lin Zhiheng Ma Rongrong Ji Yaowei Wang Xiaopeng Hong 23 145 0 05 Mar 2022