v1v2 (latest)

Emerging Properties in Self-Supervised Vision Transformers

29 April 2021

Papers citing "Emerging Properties in Self-Supervised Vision Transformers"

50 / 4,176 papers shown

Title
MiM: Mask in Mask Self-Supervised Pre-Training for 3D Medical Image Analysis Jiaxin Zhuang Linshan Wu Qiong Wang V. Vardhanabhuti Lin Luo Hao Chen Hao Chen 135 4 0 24 Apr 2024
Understanding Hyperbolic Metric Learning through Hard Negative Sampling Yun Yue Fangzhou Lin Guanyi Mou Ziming Zhang SSL 80 2 0 23 Apr 2024
Efficient Transformer Encoders for Mask2Former-style models Manyi Yao Abhishek Aich Yumin Suh Amit Roy-Chowdhury Christian Shelton Manmohan Chandraker 82 0 0 23 Apr 2024
External Prompt Features Enhanced Parameter-efficient Fine-tuning for Salient Object Detection Wen Liang Peipei Ran Mengchao Bai Xiao Liu P. B. Githinji Wei Zhao Peiwu Qin 95 0 0 23 Apr 2024
CA-Stream: Attention-based pooling for interpretable image recognition Felipe Torres Hanwei Zhang R. Sicre Stéphane Ayache Yannis Avrithis 92 1 0 23 Apr 2024
Generalizable Neural Human Renderer Mana Masuda Jinhyung D. Park Shun Iwase Rawal Khirodkar Kris Kitani 3DH 116 2 0 22 Apr 2024
OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks Sophia Sirko-Galouchenko Alexandre Boulch Spyros Gidaris Andrei Bursuc Antonín Vobecký Patrick Pérez Renaud Marlet 3DPC 105 7 0 22 Apr 2024
Infusion: Preventing Customized Text-to-Image Diffusion from Overfitting Weili Zeng Yichao Yan Qi Zhu Zhuo Chen Pengzhi Chu Weiming Zhao Xiaokang Yang 171 10 0 22 Apr 2024
U Can't Gen This? A Survey of Intellectual Property Protection Methods for Data in Generative AI Tanja Sarcevic Alicja Karlowicz Rudolf Mayer Ricardo A. Baeza-Yates Andreas Rauber 103 7 0 22 Apr 2024
A Multimodal Automated Interpretability Agent Tamar Rott Shaham Sarah Schwettmann Franklin Wang Achyuta Rajaram Evan Hernandez Jacob Andreas Antonio Torralba 223 28 0 22 Apr 2024
Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation Gensheng Pei Yazhou Yao Jianbo Jiao Wenguan Wang Liqiang Nie Jinhui Tang VOS 98 1 0 21 Apr 2024
ST-Mamba: Spatial-Temporal Selective State Space Model for Traffic Flow Prediction Zhiqi Shao Michael G. H. Bell Ze Wang D. Geers Haoning Xi Junbin Gao Mamba 77 2 0 20 Apr 2024
Vim4Path: Self-Supervised Vision Mamba for Histopathology Images Ali Nasiri-Sarvi Vincent Quoc-Huy Trinh Hassan Rivaz Mahdi S. Hosseini 76 8 0 20 Apr 2024
A Large-scale Medical Visual Task Adaptation Benchmark Shentong Mo Xufang Luo Yansen Wang Dongsheng Li MedIm 59 2 0 19 Apr 2024
Contrastive Gaussian Clustering: Weakly Supervised 3D Scene Segmentation Myrna C. Silva Mahtab Dahaghin M. Toso Alessio Del Bue 3DGS 81 14 0 19 Apr 2024
Show and Grasp: Few-shot Semantic Segmentation for Robot Grasping through Zero-shot Foundation Models Leonardo Barcellona Alberto Bacchin Matteo Terreran Emanuele Menegatti Stefano Ghidoni 78 2 0 19 Apr 2024
DISC: Latent Diffusion Models with Self-Distillation from Separated Conditions for Prostate Cancer Grading M. M. Ho Elham Ghelichkhan Yosep Chong Yufei Zhou Beatrice Knudsen Tolga Tasdizen MedIm DiffM 71 3 0 19 Apr 2024
GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models Sai Sree Harsha Ambareesh Revanur Dhwanit Agarwal Shradha Agrawal VGen DiffM 68 4 0 18 Apr 2024
On the Content Bias in Fréchet Video Distance Jason S. Hoffman Aniruddha Mahapatra Gaurav Parmar Jun-Yan Zhu Jia-Bin Huang EGVM 93 20 0 18 Apr 2024
Moving Object Segmentation: All You Need Is SAM (and Flow) Junyu Xie Charig Yang Weidi Xie Andrew Zisserman 105 11 0 18 Apr 2024
SOHES: Self-supervised Open-world Hierarchical Entity Segmentation Shengcao Cao Jiuxiang Gu Jason Kuen Hao Tan Ruiyi Zhang Handong Zhao A. Nenkova Liangyan Gui Tong Sun Yu Wang VLM OCL 141 3 0 18 Apr 2024
MeshLRM: Large Reconstruction Model for High-Quality Meshes Xinyue Wei Kai Zhang Sai Bi Hao Tan Fujun Luan Valentin Deschaintre Kalyan Sunkavalli Hao Su Zexiang Xu AI4CE 196 81 0 18 Apr 2024
Lazy Diffusion Transformer for Interactive Image Editing Yotam Nitzan Zongze Wu Richard Zhang Eli Shechtman Daniel Cohen-Or Taesung Park Michael Gharbi 90 11 0 18 Apr 2024
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training Jin Gao Shubo Lin Shaoru Wang Yutong Kou Zeming Li Liang Li Congxuan Zhang Xiaoqin Zhang Yizheng Wang Weiming Hu 117 1 0 18 Apr 2024
Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation Qiyuan Dai Sibei Yang 91 9 0 18 Apr 2024
The devil is in the object boundary: towards annotation-free instance segmentation using Foundation Models Cheng Shi Sibei Yang VLM 96 4 0 18 Apr 2024
Retrieval-Augmented Embodied Agents Yichen Zhu Zhicai Ou Xiaofeng Mou Jian Tang 111 20 0 17 Apr 2024
InFusion: Inpainting 3D Gaussians via Learning Depth Completion from Diffusion Prior Zhiheng Liu Ouyang Hao Qiuyu Wang Ka Leong Cheng Jie Xiao Kai Zhu Nan Xue Yu Liu Yujun Shen Yang Cao DiffM 3DGS 107 23 0 17 Apr 2024
TiNO-Edit: Timestep and Noise Optimization for Robust Diffusion-Based Image Editing Sherry X. Chen Yaron Vaxman Elad Ben Baruch David Asulin Aviad Moreshet Kuo-Chin Lien Misha Sra Pradeep Sen 68 4 0 17 Apr 2024
Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology Oren Z. Kraus Kian Kenyon-Dean Saber Saberian Maryam Fallah Peter McLean ... Chi Vicky Cheng Kristen Morse Maureen Makes Ben Mabey Berton Earnshaw 79 35 0 16 Apr 2024
Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels Amaya Dharmasiri Muzammal Naseer Salman Khan Fahad Shahbaz Khan VLM 3DPC 72 1 0 15 Apr 2024
EgoPet: Egomotion and Interaction Data from an Animal's Perspective Amir Bar Arya Bakhtiar Danny Tran Antonio Loquercio Jathushan Rajasegaran Yann LeCun Amir Globerson Trevor Darrell EgoV 104 5 0 15 Apr 2024
Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers Nithin Gopalakrishnan Nair Jeya Maria Jose Valanarasu Vishal M. Patel 91 1 0 15 Apr 2024
XoFTR: Cross-modal Feature Matching Transformer Önder Tuzcuoglu Aybora Köksal Bugra Sofu Sinan Kalkan A. Aydin Alatan ViT 83 11 0 15 Apr 2024
Object Instance Retrieval in Assistive Robotics: Leveraging Fine-Tuned SimSiam with Multi-View Images Based on 3D Semantic Map Taichi Sakaguchi Akira Taniguchi Y. Hagiwara Lotfi El Hafi Shoichi Hasegawa T. Taniguchi 72 4 0 15 Apr 2024
Bridging Vision and Language Spaces with Assignment Prediction Jungin Park Jiyoung Lee Kwanghoon Sohn VLM 99 7 0 15 Apr 2024
Contrastive Mean-Shift Learning for Generalized Category Discovery Sua Choi Dahyun Kang Minsu Cho 110 13 0 15 Apr 2024
kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies Zhongrui Gui Shuyang Sun Runjia Li Jianhao Yuan Zhaochong An Karsten Roth Ameya Prabhu Philip Torr VLM CLL 83 7 0 15 Apr 2024
VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection Bonan Ding Jin Xie Jing Nie Jiale Cao 114 2 0 15 Apr 2024
An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging Gabriel Meseguer-Brocal Dorian Desblancs Romain Hennequin SSL 79 3 0 14 Apr 2024
Improving Personalisation in Valence and Arousal Prediction using Data Augmentation Munachiso Nwadike Jialin Li Hanan Salam 74 0 0 13 Apr 2024
Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery Ye Wang Yaxiong Wang Yujiao Wu Bin Zhao Xueming Qian 120 2 0 13 Apr 2024
AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning Yuwei Tang Zhenyi Lin Qilong Wang Pengfei Zhu Qinghua Hu 71 16 0 13 Apr 2024
Single-image driven 3d viewpoint training data augmentation for effective wine label recognition Yueh-Cheng Huang Hsin-Yi Chen Cheng-Jui Hung Jen-Hui Chuang Lei Li 59 0 0 12 Apr 2024
Towards Sim-to-Real Industrial Parts Classification with Synthetic Dataset Xiaomeng Zhu Talha Bilal Pär Mårtensson Lars Hanson Mårten Björkman A. Maki 68 13 0 12 Apr 2024
Probing the 3D Awareness of Visual Foundation Models Mohamed El Banani Amit Raj Kevis-Kokitsi Maninis Abhishek Kar Yuanzhen Li Michael Rubinstein Deqing Sun Leonidas Guibas Justin Johnson Varun Jampani 107 86 0 12 Apr 2024
OmniSat: Self-Supervised Modality Fusion for Earth Observation Guillaume Astruc Nicolas Gonthier Clement Mallet Loic Landrieu 126 30 0 12 Apr 2024
OpenBias: Open-set Bias Detection in Text-to-Image Generative Models Moreno DÍncà E. Peruzzo Massimiliano Mancini Dejia Xu Vidit Goel Xingqian Xu Zhangyang Wang Humphrey Shi N. Sebe 117 37 0 11 Apr 2024
Rethinking Artistic Copyright Infringements in the Era of Text-to-Image Generative Models Mazda Moayeri Samyadeep Basu S. Balasubramanian Priyatham Kattakinda Atoosa Malemir Chegini R. Brauneis Soheil Feizi WIGM 104 4 0 11 Apr 2024
Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning Shiming Chen W. Hou Salman Khan Fahad Shahbaz Khan VLM ViT 96 15 0 11 Apr 2024