Title
Freeze the backbones: A Parameter-Efficient Contrastive Approach to Robust Medical Vision-Language Pre-training Jiuming Qin Che Liu Sibo Cheng Yike Guo Rossella Arcucci VLM MedIm 28 5 0 02 Jan 2024
CityPulse: Fine-Grained Assessment of Urban Change with Street View Time Series Tianyuan Huang Zejia Wu Jiajun Wu Jackelyn Hwang Ram Rajagopal AI4TS 27 4 0 02 Jan 2024
A Generalist FaceX via Learning Unified Facial Representation Yue Han Jiangning Zhang Junwei Zhu Xiangtai Li Yanhao Ge Wei Li Chengjie Wang Yong Liu Xiaoming Liu Ying Tai DiffM 35 13 0 31 Dec 2023
Analyzing Local Representations of Self-supervised Vision Transformers Ani Vanyan Alvard Barseghyan Hakob Tamazyan Vahan Huroyan Hrant Khachatrian Martin Danelljan 57 3 0 31 Dec 2023
iFusion: Inverting Diffusion for Pose-Free Reconstruction from Sparse Views Chin-Hsuan Wu Yen-Chun Chen Bolivar Solarte Lu Yuan Min Sun 24 9 0 28 Dec 2023
Learning Vision from Models Rivals Learning Vision from Data Yonglong Tian Lijie Fan Kaifeng Chen Dina Katabi Dilip Krishnan Phillip Isola 29 46 0 28 Dec 2023
Amodal Ground Truth and Completion in the Wild Guanqi Zhan Chuanxia Zheng Weidi Xie Andrew Zisserman 20 21 0 28 Dec 2023
Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without Manual Labels Rui Huang Songyou Peng Ayca Takmaz Federico Tombari Marc Pollefeys Shiji Song Gao Huang Francis Engelmann VLM 36 38 0 28 Dec 2023
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action Jiasen Lu Christopher Clark Sangho Lee Zichen Zhang Savya Khosla Ryan Marten Derek Hoiem Aniruddha Kembhavi VLM MLLM 40 147 0 28 Dec 2023
Generalizable Visual Reinforcement Learning with Segment Anything Model Ziyu Wang Yanjie Ze Yifei Sun Zhecheng Yuan Huazhe Xu VLM 40 8 0 28 Dec 2023
SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation Yuxuan Zhang Yiren Song Jiaming Liu Rui Wang Jinpeng Yu ... Huaxia Li Xu Tang Yao Hu Han Pan Zhongliang Jing 49 59 0 26 Dec 2023
V-STRONG: Visual Self-Supervised Traversability Learning for Off-road Navigation Sanghun Jung JoonHo Lee Xiangyun Meng Byron Boots Alexander Lambert 50 28 0 26 Dec 2023
ChartBench: A Benchmark for Complex Visual Reasoning in Charts Zhengzhuo Xu Sinan Du Yiyan Qi Chengjin Xu Chun Yuan Jian Guo 45 36 0 26 Dec 2023
Self-Supervised Learning for Few-Shot Bird Sound Classification Ilyass Moummad Romain Serizel Nicolas Farrugia SSL 23 9 0 25 Dec 2023
Fréchet Wavelet Distance: A Domain-Agnostic Metric for Image Generation Lokesh Veeramacheneni Moritz Wolter Hildegard Kuehne Juergen Gall EGVM 36 3 0 23 Dec 2023
DRStageNet: Deep Learning for Diabetic Retinopathy Staging from Fundus Images Yevgeniy Men Jonathan Fhima Leo Anthony Celi L. Z. Ribeiro Luis Filipe Nakayama Joachim A. Behar 43 4 0 22 Dec 2023
UniHuman: A Unified Model for Editing Human Images in the Wild Nannan Li Qing Liu Krishna Kumar Singh Yilin Wang Jianming Zhang Bryan A. Plummer Zhe Lin 23 9 0 22 Dec 2023
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 176 972 0 21 Dec 2023
DUSt3R: Geometric 3D Vision Made Easy Shuzhe Wang Vincent Leroy Yohann Cabon Boris Chidlovskii Jérôme Revaud 3DGS 44 330 0 21 Dec 2023
ZeroShape: Regression-based Zero-shot Shape Reconstruction Zixuan Huang Stefan Stojanov Anh Thai Varun Jampani James M. Rehg 3DV 30 23 0 21 Dec 2023
DreamDistribution: Learning Prompt Distribution for Diverse In-distribution Generation Brian Nlong Zhao Yuhang Xiao Lyne Tchapmi Xinyang Jiang Yifan Yang Dongsheng Li Laurent Itti Vibhav Vineet Yunhao Ge VLM 115 7 0 21 Dec 2023
Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps Octave Mariotti Oisin Mac Aodha Hakan Bilen 28 17 0 20 Dec 2023
TADAP: Trajectory-Aided Drivable area Auto-labeling with Pre-trained self-supervised features in winter driving conditions Eerik Alamikkotervo Risto Ojala Alvari Seppänen Kari Tammi 32 0 0 20 Dec 2023
Unsupervised Segmentation of Colonoscopy Images Heming Yao Jérôme Lüscher Benjamín Gutiérrez-Becker Josep Arús-Pous Tommaso Biancalani A. Bigorgne David Richmond MedIm 39 0 0 19 Dec 2023
CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation Monika Wysoczañska Oriane Siméoni Michael Ramamonjisoa Andrei Bursuc Tomasz Trzciñski Patrick Pérez VLM CLIP 42 29 0 19 Dec 2023
Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation Jiaming Liu Ran Xu Senqiao Yang Renrui Zhang Qizhe Zhang Zehui Chen Yandong Guo Shanghang Zhang TTA 35 10 0 19 Dec 2023
Appearance-based Refinement for Object-Centric Motion Segmentation Junyu Xie Weidi Xie Andrew Zisserman VOS 43 3 0 18 Dec 2023
Anomaly Score: Evaluating Generative Models and Individual Generated Images based on Complexity and Vulnerability Jaehui Hwang Junghyuk Lee Jong-Seok Lee EGVM 34 2 0 17 Dec 2023
When Parameter-efficient Tuning Meets General-purpose Vision-language Models Yihang Zhai Haixin Wang Jianlong Chang Xinlong Yang Jinan Sun Shikun Zhang Qi Tian VLM MLLM 38 1 0 16 Dec 2023
Data-Efficient Multimodal Fusion on a Single GPU Noël Vouitsis Zhaoyan Liu S. Gorti Valentin Villecroze Jesse C. Cresswell Guangwei Yu Gabriel Loaiza-Ganem M. Volkovs 51 3 0 15 Dec 2023
SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery Xin Guo Jiangwei Lao Bo Dang Yingying Zhang Lei Yu ... Jian Wang Jingdong Chen Ming Yang Yongjun Zhang Yansheng Li 38 119 0 15 Dec 2023
Focus on Your Instruction: Fine-grained and Multi-instruction Image Editing by Attention Modulation Qin Guo Tianwei Lin DiffM 27 31 0 15 Dec 2023
Enlighten-Your-Voice: When Multimodal Meets Zero-shot Low-light Image Enhancement Xiaofeng Zhang Zishan Xu Hao Tang Chaochen Gu Wei Chen Shanying Zhu Xinping Guan 44 1 0 15 Dec 2023
Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers Zi-Xin Zou Zhipeng Yu Yuanchen Guo Yangguang Li Ding Liang Yan-Pei Cao Song-Hai Zhang 3DGS 42 173 0 14 Dec 2023
Less is more -- the Dispatcher/ Executor principle for multi-task Reinforcement Learning Martin Riedmiller Tim Hertweck Roland Hafner OffRL 26 1 0 14 Dec 2023
Design Space Exploration of Low-Bit Quantized Neural Networks for Visual Place Recognition Oliver Grainge Michael Milford Indu Bodala Sarvapali D. Ramchurn Shoaib Ehsan 21 4 0 14 Dec 2023
Weighted Ensemble Models Are Strong Continual Learners Imad Eddine Marouf Subhankar Roy Enzo Tartaglione Stéphane Lathuilière CLL 55 17 0 14 Dec 2023
Progressive Feature Self-reinforcement for Weakly Supervised Semantic Segmentation Jingxuan He Lechao Cheng Chaowei Fang Zunlei Feng Tingting Mu Min-Gyoo Song 25 7 0 14 Dec 2023
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation Zexiang Liu Yangguang Li Youtian Lin Xin Yu Sida Peng Yan-Pei Cao Xiaojuan Qi Xiaoshui Huang Ding Liang Wanli Ouyang 41 37 0 14 Dec 2023
GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning Animesh Karnewar Roman Shapovalov Tom Monnier Andrea Vedaldi Niloy J. Mitra David Novotny 55 0 0 14 Dec 2023
Bayes3D: fast learning and inference in structured generative models of 3D objects and scenes Nishad Gothoskar Matin Ghavami Eric Li Aidan Curtis Michael Noseworthy ... Brian Patton William T. Freeman Joshua B. Tenenbaum Mirko Klukas Vikash K. Mansinghka BDL 3DV 27 3 0 14 Dec 2023
LD-SDM: Language-Driven Hierarchical Species Distribution Modeling Srikumar Sastry Xin Xing Aayush Dhakal Subash Khanal Adeel Ahmad Nathan Jacobs 42 5 0 13 Dec 2023
Foundation Models in Robotics: Applications, Challenges, and the Future Roya Firoozi Johnathan Tucker Stephen Tian Anirudha Majumdar Jiankai Sun ... Brian Ichter Danny Driess Jiajun Wu Cewu Lu Mac Schwager LM&Ro AI4CE LRM VLM 37 143 0 13 Dec 2023
A Foundational Multimodal Vision Language AI Assistant for Human Pathology Ming Y. Lu Bowen Chen Drew F. K. Williamson Richard J. Chen Kenji Ikamura ... Ivy Liang L. Le Tong Ding Anil V. Parwani Faisal Mahmood MedIm LM&MA 26 20 0 13 Dec 2023
Saturn Platform: Foundation Model Operations and Generative AI for Financial Services Antonio Busson Rennan Gaio Rafael H. Rocha Francisco Evangelista Bruno Rizzi Luan Carvalho Rafael Miceli Marcos Rabaioli David Favaro 28 1 0 12 Dec 2023
FreeInit: Bridging Initialization Gap in Video Diffusion Models Tianxing Wu Chenyang Si Yuming Jiang Ziqi Huang Ziwei Liu DiffM VGen 38 45 0 12 Dec 2023
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition Sicheng Mo Fangzhou Mu Kuan Heng Lin Yanli Liu Bochen Guan Yin Li Bolei Zhou DiffM 53 60 0 12 Dec 2023
Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection Jiangning Zhang Xuhai Chen Yabiao Wang Chengjie Wang Yong Liu Xiangtai Li Ming-Hsuan Yang Dacheng Tao 33 24 0 12 Dec 2023
Benchmarking Pretrained Vision Embeddings for Near- and Duplicate Detection in Medical Images Tuan Truong Farnaz Khun Jush Matthias Lenga 36 2 0 12 Dec 2023
UpFusion: Novel View Diffusion from Unposed Sparse View Observations Bharath Raj Nagoor Kani Hsin-Ying Lee Sergey Tulyakov Shubham Tulsiani 43 5 0 11 Dec 2023