v1v2 (latest)

Emerging Properties in Self-Supervised Vision Transformers

29 April 2021

Papers citing "Emerging Properties in Self-Supervised Vision Transformers"

50 / 4,175 papers shown

Title
OV-SCAN: Semantically Consistent Alignment for Novel Object Discovery in Open-Vocabulary 3D Object Detection Adrian Chow Evelien Riddell Yimu Wang Sean Sedwards Krzysztof Czarnecki 3DPC 75 0 0 09 Mar 2025
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation Zhenpeng Chen Chunwei Wang Xiuwei Chen Hongbin Xu Jiawei Han Xiandan Liang J. N. Han Hang Xu Xiaodan Liang VLM 181 2 0 09 Mar 2025
Vector Quantized Feature Fields for Fast 3D Semantic Lifting George Tang Aditya Agarwal Weiqiao Han Trevor Darrell Yutong Bai 94 0 0 09 Mar 2025
Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias Mingxiao Li Tingyu Qu Tinne Tuytelaars Marie-Francine Moens EGVM 77 1 0 09 Mar 2025
A Quantitative Evaluation of the Expressivity of BMI, Pose and Gender in Body Embeddings for Recognition and Identification Basudha Pal Siyuan Huang 179 1 0 09 Mar 2025
GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation Ye Tao Jiawei Zhang Yahao Shi Dongqing Zou Bin Zhou 3DGS 140 0 0 08 Mar 2025
FloPE: Flower Pose Estimation for Precision Pollination Rashik Shrestha Madhav Rijal T. Smith Yu Gu 99 0 0 08 Mar 2025
Text-to-3D Generation using Jensen-Shannon Score Distillation Khoi Do Binh-Son Hua DiffM 90 0 0 08 Mar 2025
Spatial Context-Driven Positive Pair Sampling for Enhanced Histopathology Image Classification Willmer Rafell Quinones Robles Sakonporn Noree Y. Ko Bryan Wong JongWoo Kim Mun Yi 76 0 0 07 Mar 2025
Stereo Any Video: Temporally Consistent Stereo Matching Junpeng Jing Weixun Luo Ye Mao K. Mikolajczyk 98 0 0 07 Mar 2025
ConstellationNet: Reinventing Spatial Clustering through GNNs Aidan Gao Junhong Lin GNN 68 0 0 06 Mar 2025
Extracting Symbolic Sequences from Visual Representations via Self-Supervised Learning Victor Sebastian Martinez Pozos Ivan Vladimir Meza Ruiz 65 0 0 06 Mar 2025
ViT-VS: On the Applicability of Pretrained Vision Transformer Features for Generalizable Visual Servoing Alessandro Scherl Stefan Thalhammer Bernhard Neuberger Wilfried Wöber José Gracía-Rodríguez 110 0 0 06 Mar 2025
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion Ziyi Yang Fanqi Wan Longguang Zhong Canbin Huang Guosheng Liang Xiaojun Quan MoMe 140 2 0 06 Mar 2025
Energy-Guided Optimization for Personalized Image Editing with Pretrained Text-to-Image Diffusion Models Rui Jiang Xinghe Fu Guangcong Zheng Teng Li Taiping Yao Xi Li DiffM 100 1 0 06 Mar 2025
Beyond H&E: Unlocking Pathological Insights with Polarization via Self-supervised Learning Yao Du Jiaxin Zhuang Xiaoyu Zheng Jing Cong Limei Guo Chao He Lin Luo Xiaomeng Li MedIm 106 1 0 05 Mar 2025
CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP Songlong Xing Zhengyu Zhao N. Sebe AAML 153 2 0 05 Mar 2025
Is Pre-training Applicable to the Decoder for Dense Prediction? Chao Ning Wanshui Gan Weihao Xuan Naoto Yokoya 275 0 0 05 Mar 2025
Task-Agnostic Attacks Against Vision Foundation Models Brian Pulfer Yury Belousov Vitaliy Kinakh Teddy Furon S. Voloshynovskiy AAML 111 0 0 05 Mar 2025
Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters Julia Hindel Rohit Mohan Jelena Bratulić Daniele Cattaneo Thomas Brox Abhinav Valada 3DPC 113 0 0 05 Mar 2025
COARSE: Collaborative Pseudo-Labeling with Coarse Real Labels for Off-Road Semantic Segmentation Aurelio Noca Xianmei Lei Jonathan Becktor J. Edlund Anna Sabel Patrick Spieler Curtis Padgett Alexandre Alahi Deegan Atha 151 0 0 05 Mar 2025
CREStE: Scalable Mapless Navigation with Internet Scale Priors and Counterfactual Guidance Arthur Zhang Harshit S. Sikchi Amy Zhang Joydeep Biswas 121 1 0 05 Mar 2025
Teaching Metric Distance to Autoregressive Multimodal Foundational Models Jiwan Chung Saejin Kim Yongrae Jo Jinho Park Dongjun Min Youngjae Yu 252 0 0 04 Mar 2025
Resource-Efficient Affordance Grounding with Complementary Depth and Semantic Prompts Yizhou Huang Fan Yang Guoliang Zhu Gen Li Hao-miao Shi Yukun Zuo Wenrui Chen Zehan Li Kailun Yang 140 0 0 04 Mar 2025
ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment Shaofei Cai Zhancun Mu Hoang Trung-Dung Yitao Liang 87 6 0 04 Mar 2025
GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning Zhun Mou Bin Xia Zhengchao Huang Wenming Yang Jiaya Jia VGen ELM LRM 107 1 0 04 Mar 2025
Personalized Generation In Large Model Era: A Survey Yiyan Xu Jinghao Zhang Alireza Salemi Xinting Hu Wenjie Wang Fuli Feng Hamed Zamani Xiangnan He Tat-Seng Chua 3DV 188 8 0 04 Mar 2025
A Token-level Text Image Foundation Model for Document Understanding Tongkun Guan Zining Wang Pei Fu Zhengtao Guo Wei Shen ... Chen Duan Hao Sun Qianyi Jiang Junfeng Luo Xiaokang Yang VLM 180 2 0 04 Mar 2025
Action Tokenizer Matters in In-Context Imitation Learning An Vuong M. Vu Dong An Ian Reid 114 1 0 03 Mar 2025
Hypergraph Foundation Model Yifan Feng Shiquan Liu Xiangmin Han Shaoyi Du Zongze Wu Han Hu Yue Gao AI4CE 75 2 0 03 Mar 2025
Lossy Neural Compression for Geospatial Analytics: A Review Carlos Gomes Isabelle Wittmann Damien Robert Johannes Jakubik Tim Reichelt ... Romeo Kienzler Rania Briq Sabrina Benassou Michele Lazzarini C. Albrecht 145 2 0 03 Mar 2025
Generative Human Geometry Distribution Xiangjun Tang Biao Zhang Peter Wonka 3DH 193 0 0 03 Mar 2025
WeGen: A Unified Model for Interactive Multimodal Generation as We Chat Zhipeng Huang Shaobin Zhuang Canmiao Fu Binxin Yang Ying Zhang Chong Sun Zhizheng Zhang Yali Wang Chen Li Zheng-Jun Zha DiffM 123 3 0 03 Mar 2025
One-shot In-context Part Segmentation Zhenqi Dai Ting Liu Xinyu Zhang Y. X. Wei Yanning Zhang VLM 176 1 0 03 Mar 2025
AirRoom: Objects Matter in Room Reidentification Runmao Yao Yi Du Zhuoqun Chen Haoze Zheng Chen Wang 106 0 0 03 Mar 2025
A General Purpose Spectral Foundational Model for Both Proximal and Remote Sensing Spectral Imaging William Michael Laprade Jesper Cairo Westergaard Svend Christensen Mads Nielsen Anders Bjorholm Dahl 108 0 0 03 Mar 2025
AffordGrasp: In-Context Affordance Reasoning for Open-Vocabulary Task-Oriented Grasping in Clutter Yingbo Tang Shanghang Zhang Xiaoshuai Hao Pengwei Wang Jianlong Wu Zihan Wang Shanghang Zhang 118 7 0 02 Mar 2025
Foundation Models Secretly Understand Neural Network Weights: Enhancing Hypernetwork Architectures with Foundation Models Jeffrey Gu Serena Yeung-Levy AI4CE 70 1 0 02 Mar 2025
Confounder-Aware Medical Data Selection for Fine-Tuning Pretrained Vision Models Anyang Ji Qingbo Kang Wei Xu Changfan Wang Kang Li Qicheng Lao 71 0 0 02 Mar 2025
Transformer Meets Twicing: Harnessing Unattended Residual Information Laziz U. Abdullaev Tan M. Nguyen 144 3 0 02 Mar 2025
Scalable Real2Sim: Physics-Aware Asset Generation Via Robotic Pick-and-Place Setups Nicholas Pfaff Evelyn Fu Jeremy Binagia Phillip Isola Russ Tedrake 126 8 0 01 Mar 2025
SolidMark: Evaluating Image Memorization in Generative Models Nicky Kriplani Minh Pham Gowthami Somepalli Chinmay Hegde Niv Cohen VLM 90 1 0 01 Mar 2025
Solving Instance Detection from an Open-World Perspective Qianqian Shen Yunhan Zhao Nahyun Kwon Jeeeun Kim Yanan Li Shu Kong 138 1 0 01 Mar 2025
Split Adaptation for Pre-trained Vision Transformers Lixu Wang Bingqi Shang Yuchen Li Payal Mohapatra Wei Dong Xiao-Xu Wang Qi Zhu ViT 112 1 0 01 Mar 2025
Parallel-Learning of Invariant and Tempo-variant Attributes of Single-Lead Cardiac Signals: PLITA A. Atienza J. Bardram S. Puthusserypady 63 0 0 28 Feb 2025
CNSv2: Probabilistic Correspondence Encoded Neural Image Servo Anzhe Chen Hongxiang Yu Shuxin Li Yuxi Chen Zhongxiang Zhou Wentao Sun R. Xiong Yansen Wang 105 0 0 28 Feb 2025
Spiking Transformer:Introducing Accurate Addition-Only Spiking Self-Attention for Transformer Yufei Guo Xiaode Liu Y. Chen Weihang Peng Yuhan Zhang Zhe Ma MQ 123 2 0 28 Feb 2025
CuPID: Leveraging Masked Single-Lead ECG Modelling for Enhancing the Representations A. Atienza G. Manimaran J. Bardram S. Puthusserypady 134 0 0 28 Feb 2025
Anatomically-guided masked autoencoder pre-training for aneurysm detection Alberto Mario Ceballos-Arroyo Jisoo Kim Hongpeng Zhou Lei Qin Geoffrey S. Young Huaizu Jiang ViT MedIm 58 0 0 28 Feb 2025
SciceVPR: Stable Cross-Image Correlation Enhanced Model for Visual Place Recognition Shanshan Wan Yingmei Wei Lai Kang Tianrui Shen Haixuan Wang Yee-Hong Yang 160 0 0 28 Feb 2025