v1v2 (latest)

Emerging Properties in Self-Supervised Vision Transformers

29 April 2021

Papers citing "Emerging Properties in Self-Supervised Vision Transformers"

50 / 4,175 papers shown

Title
Conditional Balance: Improving Multi-Conditioning Trade-Offs in Image Generation Nadav Cohen O. Nir Ariel Shamir DiffM 80 1 0 31 Dec 2024
Symbolic Disentangled Representations for Images Alexandr Korchemnyi A. Kovalev Aleksandr I. Panov OCL 129 0 0 31 Dec 2024
Edicho: Consistent Image Editing in the Wild Qingyan Bai Hao Ouyang Yinghao Xu Qiuyu Wang Ceyuan Yang Ka Leong Cheng Yujun Shen Qifeng Chen DiffM 176 1 0 30 Dec 2024
Uncertainty Herding: One Active Learning Method for All Label Budgets Wonho Bae Gabriel L. Oliveira Danica J. Sutherland UQCV 439 0 0 30 Dec 2024
User Willingness-aware Sales Talk Dataset Asahi Hentona Jun Baba Shiki Sato Reina Akama 111 6 0 27 Dec 2024
Hierarchical Vector Quantization for Unsupervised Action Segmentation Federico Spurio Emad Bahrami Gianpiero Francesca Juergen Gall 116 0 0 23 Dec 2024
The Dynamic Duo of Collaborative Masking and Target for Advanced Masked Autoencoder Learning Shentong Mo 100 0 0 23 Dec 2024
Enhancing Long Video Generation Consistency without Tuning Xingyao Li Fengzhuo Zhang Jiachun Pan Yunlong Hou Vincent Y. F. Tan Zhuoran Yang DiffM VGen 82 0 0 23 Dec 2024
Multi-Scale Foreground-Background Confidence for Out-of-Distribution Segmentation Samuel Marschall Kira Maag 141 1 0 22 Dec 2024
Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection Yi Liu Chengxin Li Xiaohui Dong Lei Li Dingwen Zhang Shoukun Xu Jiawei Han 182 1 0 22 Dec 2024
HyperNet Fields: Efficiently Training Hypernetworks without Ground Truth by Learning Weight Trajectories Eric Hedlin Munawar Hayat Fatih Porikli Kwang Moo Yi Shweta Mahajan 3DH 167 0 0 22 Dec 2024
Uncertainty Quantification in Continual Open-World Learning Amanda Rios I. Ndiour Parual Datta Jaroslaw Sydir Omesh Tickoo Nilesh A. Ahuja BDL 131 0 0 21 Dec 2024
Enhancing Contrastive Learning Inspired by the Philosophy of "The Blind Men and the Elephant" Yudong Zhang Ruobing Xie Jiansheng Chen Xingwu Sun Zhanhui Kang Yu Wang 192 0 0 21 Dec 2024
A High-Quality Text-Rich Image Instruction Tuning Dataset via Hybrid Instruction Generation Shijie Zhou Ruiyi Zhang Yufan Zhou Changyou Chen VLM 117 1 0 20 Dec 2024
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment Cijo Jose Théo Moutakanni Dahyun Kang Federico Baldassarre Timothée Darcet ... Maxime Oquab Oriane Siméoni Huy V. Vo Patrick Labatut Piotr Bojanowski CLIP VLM 178 8 0 20 Dec 2024
Mapping the Mind of an Instruction-based Image Editing using SMILE Zeinab Dehghani Koorosh Aslansefat Adil Khan Adín Ramirez Rivera Franky George Muhammad Khalid DiffM 172 1 0 20 Dec 2024
LEARN: A Unified Framework for Multi-Task Domain Adapt Few-Shot Learning Bharadwaj Ravichandran Alexander Lynch S. Brockman Brandon RichardWebster Dawei Du A. Hoogs Christopher Funk ObjD VLM 166 0 0 20 Dec 2024
Interactive Scene Authoring with Specialized Generative Primitives Clément Jambon Changwoon Choi Dongsu Zhang Olga Sorkine-Hornung Young Min Kim VGen 131 0 0 20 Dec 2024
IntroStyle: Training-Free Introspective Style Attribution using Diffusion Features Anand Kumar Jiteng Mu Nuno Vasconcelos DiffM 130 0 0 19 Dec 2024
VideoDPO: Omni-Preference Alignment for Video Diffusion Generation Runtao Liu Haoyu Wu Zheng Ziqiang Chen Wei Yingqing He Renjie Pi Qifeng Chen VGen 157 22 0 18 Dec 2024
Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model Yuqiu Liu Jingxuan Xu Mauricio Soroco Yunchao Wei Wuyang Chen AI4CE 144 2 0 18 Dec 2024
Read Like a Radiologist: Efficient Vision-Language Model for 3D Medical Imaging Interpretation Changsun Lee Sangjoon Park Cheong-Il Shin Woo Hee Choi Hyun Jeong Park J. Lee Jong Chul Ye 159 2 0 18 Dec 2024
Real-time One-Step Diffusion-based Expressive Portrait Videos Generation Hanzhong Guo Hongwei Yi Daquan Zhou Alexander William Bergman Michael Lingelbach Yizhou Yu DiffM 120 1 0 18 Dec 2024
CAD-Assistant: Tool-Augmented VLLMs as Generic CAD Task Solvers Dimitrios Mallis Ahmet Serdar Karadeniz Sebastian Cavada Danila Rukhovich Niki Maria Foteinopoulou K. Cherenkova Anis Kacem Djamila Aouada 182 7 0 18 Dec 2024
RelationField: Relate Anything in Radiance Fields Sebastian Koch Johanna Wald Mirco Colosi Narunas Vaskevicius Pedro Hermosilla F. Tombari Timo Ropinski 176 1 0 18 Dec 2024
CRoF: CLIP-based Robust Few-shot Learning on Noisy Labels Shizhuo Deng Bowen Han Jiaqi Chen Hao Wang Dongyue Chen Tong Jia VLM NoLa 151 0 0 17 Dec 2024
GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding Haoyi Jiang Liu Liu Tianheng Cheng Xinjie Wang Tianwei Lin Zhizhong Su Wen Liu Xinyu Wang 3DGS ViT 199 10 0 17 Dec 2024
Efficient Object-centric Representation Learning with Pre-trained Geometric Prior Phúc H. Lê Khắc Graham Healy Alan F. Smeaton OCL 124 0 0 16 Dec 2024
A LoRA is Worth a Thousand Pictures Chenxi Liu Towaki Takikawa Alec Jacobson DiffM OffRL 182 2 0 16 Dec 2024
Expanded Comprehensive Robotic Cholecystectomy Dataset (CRCD) K. Oh Leonardo Borgioli Alberto Mangano Valentina Valle Marco Di Pangrazio ... Luciano Ambrosini Alvaro Ducas Milos Zefran Liaohai Chen P. Giulianotti 121 1 0 16 Dec 2024
SAMIC: Segment Anything with In-Context Spatial Prompt Engineering S. Nagendra Kashif Rashid Chaopeng Shen Daniel Kifer VLM 143 2 0 16 Dec 2024
$$\texttt{DINO-Foresight}$: Looking into the Future with DINO$ $\texttt{DINO-Foresight}$ : Looking into the Future with DINO Efstathios Karypidis Ioannis Kakogeorgiou Spyros Gidaris N. Komodakis AI4CE 147 3 0 16 Dec 2024
Wonderland: Navigating 3D Scenes from a Single Image Hanwen Liang Junli Cao Vidit Goel Guocheng Qian Sergei Korolev Demetri Terzopoulos Konstantinos N. Plataniotis Sergey Tulyakov Jian Ren VGen 208 14 0 16 Dec 2024
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping Hao Shao Shulun Wang Yang Zhou Guanglu Song Dailan He Shuo Qin Zhuofan Zong Bingqi Ma Yang Liu Hongsheng Li VGen DiffM 141 0 0 15 Dec 2024
Wearable Accelerometer Foundation Models for Health via Knowledge Distillation Salar Abbaspourazad Anshuman Mishra Joseph D. Futoma Andrew C. Miller Ian Shapiro 181 0 0 15 Dec 2024
Redefining Normal: A Novel Object-Level Approach for Multi-Object Novelty Detection Mohammadreza Salehi Nikolaos Apostolikas E. Gavves Cees G. M. Snoek Yuki M. Asano ObjD 166 0 0 15 Dec 2024
Video Representation Learning with Joint-Embedding Predictive Architectures Katrina Drozdov Ravid Shwartz-Ziv Yann LeCun AI4TS 130 3 0 14 Dec 2024
SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer Hong Chen Zihan Wang Xianrui Li Xingwu Sun Fangyi Chen Jiang Liu Jiadong Wang Bhiksha Raj Zicheng Liu Emad Barsoum VLM 286 10 0 14 Dec 2024
Towards Unified Benchmark and Models for Multi-Modal Perceptual Metrics Sara Ghazanfari Siddharth Garg Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Francesco Croce VLM 150 0 0 13 Dec 2024
CONCLAD: COntinuous Novel CLAss Detector Amanda Rios I. Ndiour Parual Datta Omesh Tickoo Nilesh A. Ahuja 148 0 0 13 Dec 2024
Feat2GS: Probing Visual Foundation Models with Gaussian Splatting Yue Chen Xingyu Chen Anpei Chen Gerard Pons-Moll Yuliang Xiu 3DGS 134 5 0 12 Dec 2024
DECOR:Decomposition and Projection of Text Embeddings for Text-to-Image Customization Geonhui Jang Jin-Hwa Kim Yong-Hyun Park Junho Kim Gayoung Lee Yonghyun Jeong DiffM 115 0 0 12 Dec 2024
Enhancing Modality Representation and Alignment for Multimodal Cold-start Active Learning Meng Shen Yake Wei Jianxiong Yin D. Rajan D. Hu Simon See 144 0 0 12 Dec 2024
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics Xi Chen Zhifei Zhang He Zhang Yuqian Zhou Seunggeun Kim ... Nanxuan Zhao Yilin Wang Hui Ding Zhe Lin Hengshuang Zhao VGen DiffM 187 29 0 10 Dec 2024
PRM: Photometric Stereo based Large Reconstruction Model Wenhang Ge Jiantao Lin Guibao Shen Jiawei Feng T. Hu Xinli Xu Ying-Cong Chen 130 2 0 10 Dec 2024
Open-Vocabulary High-Resolution 3D (OVHR3D) Data Segmentation and Annotation Framework Jiuyi Xu Meida Chen Andrew Feng Yangming Shi Zifan Yu 91 0 0 09 Dec 2024
Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction Dongxu Wei Zhiqi Li Peidong Liu 197 2 0 09 Dec 2024
Language Model as Visual Explainer Xingyi Yang Xinchao Wang VLM 76 0 0 08 Dec 2024
Nested Diffusion Models Using Hierarchical Latent Priors Xiao Zhang Ruoxi Jiang Rebecca Willett Michael Maire BDL DiffM 118 1 0 08 Dec 2024
When Vision Models Meet Parameter Efficient Look-Aside Adapters Without Large-Scale Audio Pretraining Juan Yeo Jinkwan Jang Kyubyung Chae Seongkyu Mun Taesup Kim VLM 133 0 0 08 Dec 2024