v1v2 (latest)

Emerging Properties in Self-Supervised Vision Transformers

29 April 2021

Papers citing "Emerging Properties in Self-Supervised Vision Transformers"

50 / 4,175 papers shown

Title
SciceVPR: Stable Cross-Image Correlation Enhanced Model for Visual Place Recognition Shanshan Wan Yingmei Wei Lai Kang Tianrui Shen Haixuan Wang Yee-Hong Yang 160 0 0 28 Feb 2025
Attention Distillation: A Unified Approach to Visual Characteristics Transfer Yang Zhou Xu Gao Zichong Chen Hui Huang DiffM 113 7 0 27 Feb 2025
SubZero: Composing Subject, Style, and Action via Zero-Shot Personalization Shubhankar Borse K. Bhardwaj Mohammad Reza Karimi Dastjerdi Hyojin Park Shreya Kadambi ... Prathamesh Mandke Ankita Nayak Harris Teague Munawar Hayat Fatih Porikli DiffM 182 1 0 27 Feb 2025
CS-PaperSum: A Large-Scale Dataset of AI-Generated Summaries for Scientific Papers Javin Liu Aryan Vats Zihao He 111 0 0 27 Feb 2025
Vector-Quantized Vision Foundation Models for Object-Centric Learning Rongzhen Zhao V. Wang Arno Solin Joni Pajarinen OCL VLM 561 1 0 27 Feb 2025
Attention-Guided Integration of CLIP and SAM for Precise Object Masking in Robotic Manipulation Muhammad A. Muttaqien Tomohiro Motoda Ryo Hanai Domae Yukiyasu 57 1 0 26 Feb 2025
Consistent Amortized Clustering via Generative Flow Networks Irit Chelly Roy Uziel Oren Freifeld Ari Pakman 163 0 0 26 Feb 2025
SLAM in the Dark: Self-Supervised Learning of Pose, Depth and Loop-Closure from Thermal Images Yangfan Xu Qu Hao Lilian Zhang Jun Mao Xiaofeng He Wenqi Wu Changhao Chen MDE 171 0 0 26 Feb 2025
Examining the Threat Landscape: Foundation Models and Model Stealing Ankita Raj Deepankar Varma Chetan Arora AAML 293 1 0 25 Feb 2025
Escaping The Big Data Paradigm in Self-Supervised Representation Learning Carlos Vélez García Miguel Cazorla Jorge Pomares 85 0 0 25 Feb 2025
UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting Haoyuan Li Yanpeng Zhou Tao Tang Jifei Song Yihan Zeng Michael C. Kampffmeyer Hang Xu Xiaodan Liang 3DGS 103 2 0 25 Feb 2025
VaViM and VaVAM: Autonomous Driving through Video Generative Modeling Florent Bartoccioni Elias Ramzi Victor Besnier Shashanka Venkataramanan Tuan-Hung Vu ... Mickael Chen Éloi Zablocki Andrei Bursuc Eduardo Valle Matthieu Cord VGen 176 2 0 24 Feb 2025
Graph Perceiver IO: A General Architecture for Graph Structured Data Seyun Bae Hoyoon Byun Changdae Oh Yoon-Sik Cho Kyungwoo Song GNN 258 3 0 24 Feb 2025
Enhancing Image Matting in Real-World Scenes with Mask-Guided Iterative Refinement Rui Liu 72 0 0 24 Feb 2025
MVIP -- A Dataset and Methods for Application Oriented Multi-View and Multi-Modal Industrial Part Recognition Paul Koch Marian Schluter Jörg Krüger 142 0 0 24 Feb 2025
Machine learning and high dimensional vector search Matthijs Douze 132 0 0 24 Feb 2025
Surgical Scene Understanding in the Era of Foundation AI Models: A Comprehensive Review Ufaq Khan Umair Nawaz A. Qayyum Shazad Ashraf Muhammad Bilal Junaid Qadir 145 0 0 24 Feb 2025
Vision-LSTM: xLSTM as Generic Vision Backbone Benedikt Alkin M. Beck Korbinian Poppel Sepp Hochreiter Johannes Brandstetter VLM 235 49 0 24 Feb 2025
MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations Benedikt Alkin Lukas Miklautz Sepp Hochreiter Johannes Brandstetter VLM 257 8 0 24 Feb 2025
Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration Kim Jun-Seong GeonU Kim Kim Yu-Ji Yu-Chun Wang Jaesung Choe Tae-Hyun Oh 3DGS 133 1 0 23 Feb 2025
SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition Feng Lu Tong Jin X. Lan Lijun Zhang Yunpeng Liu Yaowei Wang Chun Yuan 82 1 0 23 Feb 2025
Exploring Patient Data Requirements in Training Effective AI Models for MRI-based Breast Cancer Classification Solha Kang W. D. Neve Francois Rameau Utku Ozbulak OOD 88 0 0 22 Feb 2025
Separated Contrastive Learning for Matching in Cross-domain Recommendation with Curriculum Scheduling Heng Chang Liang Gu Cheng Hu Zhinan Zhang Hong Zhu Yuhui Xu Yuan Fang Zhen Chen 101 0 0 22 Feb 2025
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers D. She Mushui Liu Jingxuan Pang Jin Wang Zhen Yang ... Yi Wang Qihan Huang Haobin Tang YunLong Yu Siming Fu VGen 218 5 0 21 Feb 2025
Data Attribution for Text-to-Image Models by Unlearning Synthesized Images Sheng-Yu Wang Aaron Hertzmann Alexei A. Efros Jun-Yan Zhu Richard Zhang TDI 209 3 0 21 Feb 2025
Enhancing Adversarial Robustness of Vision-Language Models through Low-Rank Adaptation Yuheng Ji Yue Liu Zhicheng Zhang Zhao Zhang Yuting Zhao Gang Zhou Xingwei Zhang Xinwang Liu Xiaolong Zheng VLM 184 4 0 21 Feb 2025
Structurally Disentangled Feature Fields Distillation for 3D Understanding and Editing Yoel Levy David Shavin Itai Lang Sagie Benaim 115 0 0 21 Feb 2025
FreqPrior: Improving Video Diffusion Models with Frequency Filtering Gaussian Noise Yunlong Yuan Yuanfan Guo Chunwei Wang Wei Zhang Hang Xu L. Zhang DiffM VGen 207 3 0 20 Feb 2025
Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments Luca Barsellotti Roberto Bigazzi Marcella Cornia Lorenzo Baraldi Rita Cucchiara 231 1 0 20 Feb 2025
UNION: Unsupervised 3D Object Detection using Object Appearance-based Pseudo-Classes T. Lentsch Holger Caesar D. Gavrila 3DPC 156 8 0 20 Feb 2025
Adversarially Robust CLIP Models Can Induce Better (Robust) Perceptual Metrics Francesco Croce Christian Schlarmann Naman D. Singh Matthias Hein 158 7 0 17 Feb 2025
Intensity-Spatial Dual Masked Autoencoder for Multi-Scale Feature Learning in Chest CT Segmentation Yuexing Ding Jun Wang H. Lyu 218 0 0 17 Feb 2025
Frequency-Aware Masked Autoencoders for Human Activity Recognition using Accelerometers Niels R. Lorenzen P. Jennum Emmanuel Mignot A. Brink-Kjaer 80 0 0 17 Feb 2025
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering Yanpeng Zhao Yiwei Hao Siyu Gao Yunbo Wang Xiaokang Yang OCL 266 1 0 17 Feb 2025
Differentially Private Prototypes for Imbalanced Transfer Learning Dariush Wahdany Matthew Jagielski Adam Dziedzic Franziska Boenisch 145 0 0 17 Feb 2025
Simplifying DINO via Coding Rate Regularization Ziyang Wu Jingyuan Zhang Druv Pai Xinze Wang Chandan Singh Jianwei Yang Jianfeng Gao Yi-An Ma 548 1 0 17 Feb 2025
Object-Centric Image to Video Generation with Language Guidance Angel Villar-Corrales Gjergj Plepi Sven Behnke DiffM VGen OCL 252 1 0 17 Feb 2025
A MIMO Wireless Channel Foundation Model via CIR-CSI Consistency Jun Jiang Wenjun Yu Yunfan Li Yuan Gao Shugong Xu 146 5 0 17 Feb 2025
Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning Aurian Quélennec Pierre Chouteau Geoffroy Peeters S. Essid SSL 153 0 0 17 Feb 2025
MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction Jingcheng Ni Yuxin Guo Yichen Liu Rui Chen Lewei Lu Z. Wu DiffM VGen 144 5 0 17 Feb 2025
CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? Aashish Anantha Ramakrishnan Aadarsh Anantha Ramakrishnan Dongwon Lee 86 2 0 16 Feb 2025
Diffusion Models Through a Global Lens: Are They Culturally Inclusive? Zahra Bayramli Ayhan Suleymanzade Na Min An Huzama Ahmad Eunsu Kim Junyeong Park James Thorne Alice Oh 137 4 0 13 Feb 2025
Learning Human Skill Generators at Key-Step Levels Yilu Wu Chenhui Zhu Shuai Wang Hanlin Wang Jing Wang Zhaoxiang Zhang Limin Wang VGen 214 0 0 12 Feb 2025
PoGDiff: Product-of-Gaussians Diffusion Models for Imbalanced Text-to-Image Generation Ziyan Wang Sizhe Wei Xiaoming Huo Hao Wang DiffM 275 0 0 12 Feb 2025
Imit Diff: Semantics Guided Diffusion Transformer with Dual Resolution Fusion for Imitation Learning Yuhang Dong Haizhou Ge Yupei Zeng Jing Zhang Beiwen Tian ... Yufei Jia Ruixiang Wang Ran Yi Guyue Zhou Longhua Ma 105 1 0 11 Feb 2025
From Pixels to Components: Eigenvector Masking for Visual Representation Learning Alice Bizeul Thomas M. Sutter Alain Ryser Bernhard Schölkopf Julius von Kügelgen Julia E. Vogt 197 2 0 10 Feb 2025
Evaluation of Deep Audio Representations for Hearables Fabian Gröger Pascal Baumann Ludovic Amruthalingam Laurent Simon Ruksana Giurda Simone Lionetti 123 0 0 10 Feb 2025
SIREN: Semantic, Initialization-Free Registration of Multi-Robot Gaussian Splatting Maps Ola Shorinwa Jiankai Sun Mac Schwager Anirudha Majumdar 3DGS 143 4 0 10 Feb 2025
Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior Lee Hyoseok Kyeong Seon Kim Kwon Byung-Ki Tae-Hyun Oh MDE 426 0 0 10 Feb 2025
Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling Xiao Li Zekai Zhang Xiang Li Siyi Chen Zhihui Zhu Peng Wang Qing Qu DiffM 189 1 0 09 Feb 2025