v1v2 (latest)

Emerging Properties in Self-Supervised Vision Transformers

29 April 2021

Papers citing "Emerging Properties in Self-Supervised Vision Transformers"

50 / 4,176 papers shown

Title
PhiNets: Brain-inspired Non-contrastive Learning Based on Temporal Prediction Hypothesis Satoki Ishikawa Makoto Yamada Han Bao Yuki Takezawa 174 0 0 23 May 2024
Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection Jia Guo Shuai Lu Weihang Zhang Huiqi Li Huiqi Li Hongen Liao ViT 166 13 0 23 May 2024
Practical $0.385$ -Approximation for Submodular Maximization Subject to a Cardinality Constraint M. Tukan Loay Mualem Moran Feldman 60 4 0 22 May 2024
Text Prompting for Multi-Concept Video Customization by Autoregressive Generation D. Kothandaraman Kihyuk Sohn Ruben Villegas P. Voigtlaender Dinesh Manocha Mohammad Babaeizadeh VGen DiffM 59 2 0 22 May 2024
A Label Propagation Strategy for CutMix in Multi-Label Remote Sensing Image Classification Tom Burgert Tim Siebert Kai Norman Clasen Begüm Demir Begüm Demir 131 1 0 22 May 2024
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance Hanwen Jiang Arjun Karpur Bingyi Cao Qixing Huang André Araujo VLM 92 34 0 21 May 2024
Personalized Residuals for Concept-Driven Text-to-Image Generation Cusuh Ham Matthew Fisher James Hays Nicholas I. Kolkin Yuchen Liu Richard Y. Zhang Tobias Hinz DiffM 64 8 0 21 May 2024
Transparency Distortion Robustness for SOTA Image Segmentation Tasks Volker Knauthe Arne Rak Tristan Wirth Thomas Pollabauer Simon Metzler Arjan Kuijper Dieter W. Fellner 83 2 0 21 May 2024
DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control Hong Chen Xin Wang Yipeng Zhang Yuwei Zhou Zeyang Zhang Siao Tang Wenwu Zhu VGen DiffM 79 10 0 21 May 2024
S3O: A Dual-Phase Approach for Reconstructing Dynamic Shape and Skeleton of Articulated Objects from Single Monocular Video Hao Zhang Fang Li Samyak Rawlekar Narendra Ahuja 85 7 0 21 May 2024
WorldAfford: Affordance Grounding based on Natural Language Instructions Changmao Chen Yuren Cong Zhen Kan 105 5 0 21 May 2024
Transcriptomics-guided Slide Representation Learning in Computational Pathology Guillaume Jaume Lukas Oldenburg Anurag J. Vaidya Richard J. Chen Drew F. K. Williamson Thomas Peeters Andrew H. Song Faisal Mahmood 119 30 0 19 May 2024
Nickel and Diming Your GAN: A Dual-Method Approach to Enhancing GAN Efficiency via Knowledge Distillation Sangyeop Yeo Yoojin Jang Jaejun Yoo 110 2 0 19 May 2024
Motion Avatar: Generate Human and Animal Avatars with Arbitrary Motion Zeyu Zhang Yiran Wang Biao Wu Shuo Chen Zhiyuan Zhang Shiya Huang Wenbo Zhang Meng Fang Ling-Hao Chen Yang Zhao VGen 87 6 0 18 May 2024
Dusk Till Dawn: Self-supervised Nighttime Stereo Depth Estimation using Visual Foundation Models M. Vankadari Samuel Hodgson Sangyun Shin Kaichen Zhou Andrew Markham Niki Trigoni MDE 97 3 0 18 May 2024
AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA Weitao Feng Wenbo Zhou Jiyan He Jie Zhang Tianyi Wei Guanlin Li Tianwei Zhang Weiming Zhang Neng H. Yu 96 21 0 18 May 2024
DINO as a von Mises-Fisher mixture model Hariprasath Govindarajan Per Sidén Jacob Roll Fredrik Lindsten 94 12 0 17 May 2024
Blackbox Adaptation for Medical Image Segmentation Jay N. Paranjape S. Sikder S. Vedula Vishal M. Patel VLM MedIm 76 1 0 17 May 2024
Learning Object-Centric Representation via Reverse Hierarchy Guidance Junhong Zou Xiangyu Zhu Zhaoxiang Zhang Zhen Lei BDL ObjD OCL 76 0 0 17 May 2024
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models Xianzheng Ma Yash Bhalgat Brandon Smart Shuai Chen Xinghui Li ... Matthias Nießner Ian D Reid Angel X. Chang Iro Laina V. Prisacariu LRM 132 21 0 16 May 2024
Libra: Building Decoupled Vision System on Large Language Models Yifan Xu Xiaoshan Yang Y. Song Changsheng Xu MLLM VLM 94 8 0 16 May 2024
Enhancing Semantics in Multimodal Chain of Thought via Soft Negative Sampling Guangmin Zheng Jin Wang Xiaobing Zhou Xuejie Zhang LRM 63 2 0 16 May 2024
Cross-sensor self-supervised training and alignment for remote sensing V. Marsocci Nicolas Audebert 86 1 0 16 May 2024
Content-Based Image Retrieval for Multi-Class Volumetric Radiology Images: A Benchmark Study Farnaz Khun Jush Steffen Vogler Tuan Truong Matthias Lenga 110 3 0 15 May 2024
UniCorn: A Unified Contrastive Learning Approach for Multi-view Molecular Representation Learning Shikun Feng Yuyan Ni Minghao Li Yanwen Huang Zhiming Ma Wei-Ying Ma Yanyan Lan SSL 96 8 0 15 May 2024
BEVRender: Vision-based Cross-view Vehicle Registration in Off-road GNSS-denied Environment Lihong Jin Wei Dong Michael Kaess 85 3 0 14 May 2024
Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis A. Englebert Anne-Sophie Collin O. Cornu Christophe De Vleeschouwer 81 1 0 14 May 2024
CLIP with Quality Captions: A Strong Pretraining for Vision Tasks Pavan Kumar Anasosalu Vasu Hadi Pouransari Fartash Faghri Oncel Tuzel VLM CLIP 110 6 0 14 May 2024
Efficient Vision-Language Pre-training by Cluster Masking Zihao Wei Zixuan Pan Andrew Owens VLM 95 10 0 14 May 2024
EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training Yulin Wang Yang Yue Rui Lu Yizeng Han Shiji Song Gao Huang VLM 117 12 0 14 May 2024
Investigating Design Choices in Joint-Embedding Predictive Architectures for General Audio Representation Learning Alain Riou Stefan Lattner Gaëtan Hadjeres Geoffroy Peeters 69 2 0 14 May 2024
Self-Distillation Improves DNA Sequence Inference Tong Yu Lei Cheng Ruslan Khalitov Erland Brandser Olsson Zhirong Yang SyDa 80 1 0 14 May 2024
cVIL: Class-Centric Visual Interactive Labeling Matthias Matt Matthias Zeppelzauer Manuela Waldner VLM 28 1 0 13 May 2024
The Platonic Representation Hypothesis Minyoung Huh Brian Cheung Tongzhou Wang Phillip Isola 150 142 0 13 May 2024
PLUTO: Pathology-Universal Transformer Dinkar Juyal Harshith Padigela Chintan Shah Daniel Shenker Natalia Harguindeguy ... E. Walk J. Abel Harsha Pokkalla A. Beck S. Grullon MedIm ViT LM&MA 80 13 0 13 May 2024
AnoVox: A Benchmark for Multimodal Anomaly Detection in Autonomous Driving Daniel Bogdoll Iramm Hamdard Lukas Namgyu Rößler Felix Geisler Muhammed Bayram ... Miguel de Campos Anushervon Tabarov Yitian Yang Hanno Gottschalk J. Marius Zöllner 74 5 0 13 May 2024
DualFocus: A Unified Framework for Integrating Positive and Negative Descriptors in Text-based Person Retrieval Yuchuan Deng Zhanpeng Hu Jiakun Han Chuang Deng Qijun Zhao 95 0 0 13 May 2024
PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics Jerrin Bright Bavesh Balaji Yuhao Chen David A Clausi John S. Zelek 54 0 0 13 May 2024
Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation Shengyuan Liu Bo Wang Ye Ma Te Yang Xipeng Cao Quan Chen Han Li Di Dong Peng Jiang EGVM 80 2 0 11 May 2024
Continual Novel Class Discovery via Feature Enhancement and Adaptation Yifan Yu Shaokun Wang Yuhang He Junzhe Chen Yihong Gong CLL 74 1 0 10 May 2024
Prior-guided Diffusion Model for Cell Segmentation in Quantitative Phase Imaging Zhuchen Shao M. Anastasio Hua Li DiffM MedIm 63 1 0 10 May 2024
UnSegGNet: Unsupervised Image Segmentation using Graph Neural Networks Kovvuri Sai Bodduluri Saran A. M. Adityaja Saurabh J. Shigwan Nitin Kumar 67 1 0 09 May 2024
RoboHop: Segment-based Topological Map Representation for Open-World Visual Navigation Sourav Garg Krishan Rana M. Hosseinzadeh Lachlan Mares Niko Sünderhauf Feras Dayoub Ian Reid 127 20 0 09 May 2024
Efficient Pretraining Model based on Multi-Scale Local Visual Field Feature Reconstruction for PCB CT Image Element Segmentation Chen Chen Kai Qiao Jie Yang Jian Chen Bin Yan 53 2 0 09 May 2024
Benchmarking Neural Radiance Fields for Autonomous Robots: An Overview Yuhang Ming Xingrui Yang Weihan Wang Zheng Chen Jinglun Feng Yifan Xing Guofeng Zhang 117 15 0 09 May 2024
A Survey on Personalized Content Synthesis with Diffusion Models Xu-Lu Zhang Xiao Wei Wengyu Zhang Jinlin Wu Jiaxin Wu Zhen Lei Zhaoxiang Zhang Zhen Lei Qing Li EGVM 260 22 0 09 May 2024
OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies Lingdong Kong You-Chen Liu Lai Xing Ng Benoit R. Cottereau Wei Tsang Ooi VLM 87 17 0 08 May 2024
EVA-X: A Foundation Model for General Chest X-ray Analysis with Self-supervised Learning Jingfeng Yao Xinggang Wang Yuehao Song Huangxuan Zhao Jun Ma Yajie Chen Wenyu Liu Bo Wang ViT 82 6 0 08 May 2024
$${M^2D}$NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields$ ${M^2D}$ NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields N. Wang Lefei Zhang Angel X Chang 100 0 0 08 May 2024
Unsupervised Skin Feature Tracking with Deep Neural Networks J. Chang Torbjörn E. M. Nordling 78 0 0 08 May 2024