Revitalizing CNN Attentions via Transformers in Self-Supervised Visual Representation Learning

11 October 2021

Papers citing "Revitalizing CNN Attentions via Transformers in Self-Supervised Visual Representation Learning"

32 / 32 papers shown

Title
Visual Representation Learning with Stochastic Frame Prediction Huiwon Jang Dongyoung Kim Junsu Kim Jinwoo Shin Pieter Abbeel Younggyo Seo 36 2 0 11 Jun 2024
InstructDET: Diversifying Referring Object Detection with Generalized Instructions Ronghao Dang Jiangyan Feng Haodong Zhang Chongjian Ge Lin Song ... Chengju Liu Qi Chen Feng Zhu Rui Zhao Yibing Song ObjD 24 11 0 08 Oct 2023
Enhancing Representations through Heterogeneous Self-Supervised Learning Zhongyu Li Bo-Wen Yin Yongxiang Liu Li Liu Ming-Ming Cheng SSL 23 2 0 08 Oct 2023
Reinforcement Learning-based Mixture of Vision Transformers for Video Violence Recognition Hamid Reza Mohammadi Ehsan Nazerfard Tahereh Firoozi ViT 25 2 0 04 Oct 2023
Recent Advances of Local Mechanisms in Computer Vision: A Survey and Outlook of Recent Work Qiangchang Wang Yilong Yin 23 0 0 02 Jun 2023
CB-HVTNet: A channel-boosted hybrid vision transformer network for lymphocyte assessment in histopathological images Momina Liaqat Ali Zunaira Rauf Asifullah Khan A. Sohail Rafi Ullah Jeonghwan Gwak MedIm ViT 34 2 0 16 May 2023
DIAMANT: Dual Image-Attention Map Encoders For Medical Image Segmentation Yousef Yeganeh Azade Farshad Peter Weinberger Seyed-Ahmad Ahmadi Ehsan Adeli Nassir Navab ViT MedIm 33 0 0 28 Apr 2023
MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation Chongjian Ge Junsong Chen Enze Xie Zhongdao Wang Lanqing Hong Huchuan Lu Zhenguo Li Ping Luo MoE 31 11 0 19 Apr 2023
Soft Neighbors are Positive Supporters in Contrastive Visual Representation Learning Chongjian Ge Jiangliu Wang Zhan Tong Shoufa Chen Yibing Song Ping Luo SSL 22 27 0 30 Mar 2023
SimFLE: Simple Facial Landmark Encoding for Self-Supervised Facial Expression Recognition in the Wild Ji-Hee Moon Seongsik Park 27 0 0 14 Mar 2023
Human MotionFormer: Transferring Human Motions with Vision Transformers Hongyu Liu Xintong Han Chengbin Jin Lihui Qian Huawei Wei ... Faqiang Wang Haoye Dong Yibing Song Jia Xu Qifeng Chen 11 10 0 22 Feb 2023
Masked Video Distillation: Rethinking Masked Feature Modeling for Self-supervised Video Representation Learning Rui Wang Dongdong Chen Zuxuan Wu Yinpeng Chen Xiyang Dai Mengchen Liu Lu Yuan Yu-Gang Jiang VGen 32 87 0 08 Dec 2022
Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space Viewpoint Hongyu Liu Yibing Song Qifeng Chen DiffM 28 21 0 21 Nov 2022
One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations Yi-Chun Zhu Hongyu Liu Yibing Song Ziyang Yuan Xintong Han Chun Yuan Qifeng Chen Jue Wang VLM DiffM 29 30 0 14 Oct 2022
Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors Zhen Xing Hengduo Li Zuxuan Wu Yu-Gang Jiang 3DV 11 16 0 30 Sep 2022
Memorizing Complementation Network for Few-Shot Class-Incremental Learning Zhong Ji Zhi Hou Xiyao Liu Yanwei Pang Xuelong Li CLL 19 45 0 11 Aug 2022
Unsupervised Visual Representation Learning by Synchronous Momentum Grouping Bo Pang Yifan Zhang Yaoyi Li Jia Cai Cewu Lu SSL 23 27 0 13 Jul 2022
SERE: Exploring Feature Self-relation for Self-supervised Transformer Zhong-Yu Li Shanghua Gao Ming-Ming Cheng ViT MDE 26 14 0 10 Jun 2022
Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN Siyuan Li Di Wu Fang Wu Lei Shang Stan.Z.Li 32 48 0 27 May 2022
AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition Shoufa Chen Chongjian Ge Zhan Tong Jiangliu Wang Yibing Song Jue Wang Ping Luo 146 637 0 26 May 2022
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Zhan Tong Yibing Song Jue Wang Limin Wang ViT 137 1,122 0 23 Mar 2022
Not All Patches are What You Need: Expediting Vision Transformers via Token Reorganizations Youwei Liang Chongjian Ge Zhan Tong Yibing Song Jue Wang P. Xie ViT 14 233 0 16 Feb 2022
DynaMixer: A Vision MLP Architecture with Dynamic Mixing Ziyu Wang Wenhao Jiang Yiming Zhu Li Yuan Yibing Song Wei Liu 40 43 0 28 Jan 2022
Self-Distilled Self-Supervised Representation Learning J. Jang Seonhoon Kim Kiyoon Yoo Chaerin Kong Jang-Hyun Kim Nojun Kwak SSL 20 14 0 25 Nov 2021
Signal Transformer: Complex-valued Attention and Meta-Learning for Signal Recognition Yihong Dong Ying Peng Muqiao Yang Songtao Lu Qingjiang Shi 40 9 0 05 Jun 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 314 5,775 0 29 Apr 2021
Bottleneck Transformers for Visual Recognition A. Srinivas Tsung-Yi Lin Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani SLR 290 979 0 27 Jan 2021
SEED: Self-supervised Distillation For Visual Representation Zhiyuan Fang Jianfeng Wang Lijuan Wang Lei Zhang Yezhou Yang Zicheng Liu SSL 236 190 0 12 Jan 2021
TrackFormer: Multi-Object Tracking with Transformers Tim Meinhardt A. Kirillov Laura Leal-Taixe Christoph Feichtenhofer VOT 220 742 0 07 Jan 2021
Self-supervised Co-training for Video Representation Learning Tengda Han Weidi Xie Andrew Zisserman SSL 215 308 0 19 Oct 2020
Unsupervised Deep Representation Learning for Real-Time Tracking Ning Wang Wen-gang Zhou Yibing Song Chao Ma Wei Liu Houqiang Li HAI 84 103 0 22 Jul 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 267 3,369 0 09 Mar 2020