Title
Rethinking Image-to-Video Adaptation: An Object-centric Perspective Rui Qian Shuangrui Ding Dahua Lin OCL 59 1 0 09 Jul 2024
LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition Teng Wang Lingquan Meng Lei Cheng Changyin Sun 39 0 0 09 Jul 2024
A Clinical Benchmark of Public Self-Supervised Pathology Foundation Models Gabriele Campanella Shengjia Chen Ruchika Verma Jennifer Zeng A. Stock ... Kuan-lin Huang Ricky Kwan Jane Houldsworth Adam J. Schoenfeld Chad M. Vanderbilt AI4MH OOD LM&MA 49 16 0 09 Jul 2024
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions Xuan Ju Yiming Gao Zhaoyang Zhang Ziyang Yuan Xintao Wang Ailing Zeng Yu Xiong Qiang Xu Ying Shan VGen 77 39 0 08 Jul 2024
Multi-Label Plant Species Classification with Self-Supervised Vision Transformers Murilo Gustineli Anthony Miyaguchi Ian Stalter 38 3 0 08 Jul 2024
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images Zhangyang Qi Yunhan Yang Mengchen Zhang Long Xing Xiaoyang Wu Tong Wu Dahua Lin Xihui Liu Jiaqi Wang Hengshuang Zhao DiffM 54 8 0 08 Jul 2024
4D Contrastive Superflows are Dense 3D Representation Learners Xiang Xu Lingdong Kong Hui Shuai Wenwei Zhang Liang Pan Kai Chen Ziwei Liu Qingshan Liu 3DPC 60 7 0 08 Jul 2024
Transfer Learning with Self-Supervised Vision Transformers for Snake Identification Anthony Miyaguchi Murilo Gustineli Austin Fischer Ryan Lundqvist 29 3 0 08 Jul 2024
KidSat: satellite imagery to map childhood poverty dataset and benchmark Makkunda Sharma Fan Yang Duy-Nhat Vo Esra Suel Swapnil Mishra Samir Bhatt Oliver Fiala William Rudgard Seth Flaxman 84 1 0 08 Jul 2024
FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance Jiedong Zhuang Jiaqi Hu Lianrui Mu Rui Hu Xiaoyu Liang Jiangnan Ye Haoji Hu CLIP VLM 47 4 0 08 Jul 2024
Training-free CryoET Tomogram Segmentation Yizhou Zhao Hengwei Bian Michael Mu M. R. Uddin Zhenyang Li Xiang Li Tianyang Wang Min Xu 64 0 0 08 Jul 2024
FM-OSD: Foundation Model-Enabled One-Shot Detection of Anatomical Landmarks Juzheng Miao Cheng Chen Keli Zhang Jie Chuai Quanzheng Li Pheng-Ann Heng 43 2 0 07 Jul 2024
SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning Yi Feng Zizhan Guo Qijun Chen Rui Fan MDE 47 5 0 07 Jul 2024
Replication in Visual Diffusion Models: A Survey and Outlook Wenhao Wang Yifan Sun Zongxin Yang Zhengdong Hu Zhentao Tan Yi Yang 103 8 0 07 Jul 2024
HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning Liyuan Wang Jingyi Xie Xingxing Zhang Hang Su Jun Zhu CLL 52 5 0 07 Jul 2024
RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation Yuxuan Kuang Junjie Ye Haoran Geng Jiageng Mao Congyue Deng Leonidas Guibas He Wang Yue Wang LM&Ro 65 22 0 05 Jul 2024
PartCraft: Crafting Creative Objects by Parts Kam Woh Ng Xiatian Zhu Yi-Zhe Song Tao Xiang 59 6 0 05 Jul 2024
PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers Ananthu Aniraj C. Dantas Dino Ienco Diego Marcos 50 1 0 05 Jul 2024
Hyperspectral Dataset and Deep Learning methods for Waste from Electric and Electronic Equipment Identification (WEEE) A. Picón Pablo Galan Arantza Bereciartua-Perez Leire Benito-del-Valle 24 3 0 05 Jul 2024
Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos Leonhard Sommer Artur Jesslen Eddy Ilg Adam Kortylewski 59 2 0 05 Jul 2024
ZARRIO @ Ego4D Short Term Object Interaction Anticipation Challenge: Leveraging Affordances and Attention-based models for STA Lorenzo Mur-Labadia Ruben Martinez-Cantin J. Guerrero-Campo G. Farinella 59 0 0 05 Jul 2024
A Physical Model-Guided Framework for Underwater Image Enhancement and Depth Estimation Dazhao Du Enhan Li Hui Xiong Fanjiang Xu Jianwei Niu Gang Hua 48 3 0 05 Jul 2024
Smart Vision-Language Reasoners Denisa Roberts Lucas Roberts VLM ReLM LRM 58 4 0 05 Jul 2024
Looking for Tiny Defects via Forward-Backward Feature Transfer Alex Costanzino Pierluigi Zama Ramirez Giuseppe Lisanti Luigi Di Stefano 54 0 0 04 Jul 2024
ASteISR: Adapting Single Image Super-resolution Pre-trained Model for Efficient Stereo Image Super-resolution Yuanbo Zhou Yuyang Xue Wei Deng Xinlin Zhang Qinquan Gao Tong Tong 69 0 0 04 Jul 2024
Precision at Scale: Domain-Specific Datasets On-Demand Jesús M. Rodríguez-de-Vera Imanol G. Estepa Ignacio Sarasúa Bhalaji Nagarajan Petia Radeva 45 2 0 03 Jul 2024
Lift, Splat, Map: Lifting Foundation Masks for Label-Free Semantic Scene Completion Arthur Zhang Rainier Heijne Joydeep Biswas 44 1 0 03 Jul 2024
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents Yuxiang Chai Siyuan Huang Yazhe Niu Han Xiao Liang Liu Dingyu Zhang Peng Gao Shuai Ren Hongsheng Li LLMAG 51 27 0 03 Jul 2024
HoloHisto: End-to-end Gigapixel WSI Segmentation with 4K Resolution Sequential Tokenization Yucheng Tang Yufan He Vishwesh Nath Pengfeig Guo Ruining Deng ... Ziyue Xu Holger Roth Daguang Xu Haichun Yang Yuankai Huo 35 4 0 03 Jul 2024
IMC 2024 Methods & Solutions Review Shyam Gupta Dhanisha Sharma Songling Huang 3DV 46 0 0 03 Jul 2024
Context-Aware Video Instance Segmentation Seunghun Lee Jiwan Seo Kiljoon Han Minwoo Choi S. Im VOS 42 0 0 03 Jul 2024
Towards a Scalable Reference-Free Evaluation of Generative Models Azim Ospanov Jingwei Zhang Mohammad Jalali Xuenan Cao Andrej Bogdanov Farzan Farnia EGVM 51 8 0 03 Jul 2024
Learning from Memory: Non-Parametric Memory Augmented Self-Supervised Learning of Visual Features T. Silva Hélio Pedrini Adín Ramírez Rivera SSL 38 3 0 03 Jul 2024
Why do LLaVA Vision-Language Models Reply to Images in English? Musashi Hinck Carolin Holtermann Matthew Lyle Olson Florian Schneider Sungduk Yu Anahita Bhiwandiwalla Anne Lauscher Shaoyen Tseng Vasudev Lal VLM 53 5 0 02 Jul 2024
Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval Aneeshan Sain Pinaki Nath Chowdhury Subhadeep Koley A. Bhunia Yi-Zhe Song 47 1 0 01 Jul 2024
Label-free Neural Semantic Image Synthesis Jiayi Wang Kevin Laube Yumeng Li J. H. Metzen Shin-I Cheng Julio Borges Anna Khoreva DiffM 64 0 0 01 Jul 2024
Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the Edge Nick Eliopoulos Purvish Jajal James Davis Gaowen Liu George K. Thiravathukal Yung-Hsiang Lu 56 1 0 01 Jul 2024
RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing Bo Ai Stephen Tian Haochen Shi Yixuan Wang Cheston Tan Yunzhu Li Jiajun Wu 68 12 0 01 Jul 2024
PanopticRecon: Leverage Open-vocabulary Instance Segmentation for Zero-shot Panoptic Reconstruction Xuan Yu Yili Liu Chenrui Han Sitong Mao Shunbo Zhou R. Xiong Yiyi Liao Yue Wang ISeg 62 2 0 01 Jul 2024
Cross-Architecture Auxiliary Feature Space Translation for Efficient Few-Shot Personalized Object Detection F. Barbato Umberto Michieli J. Moon Pietro Zanuttigh Mete Ozay 52 2 0 01 Jul 2024
FairMedFM: Fairness Benchmarking for Medical Imaging Foundation Models Ruinan Jin Zikang Xu Yuan Zhong Qiongsong Yao Qi Dou S. Kevin Zhou Xiaoxiao Li VLM 57 14 0 01 Jul 2024
Diffusion Models and Representation Learning: A Survey Michael Fuest Pingchuan Ma Ming Gui Johannes S. Fischer Vincent Tao Hu Bjorn Ommer DiffM 58 20 0 30 Jun 2024
Unveiling Glitches: A Deep Dive into Image Encoding Bugs within CLIP Ayush Ranjan Daniel Wen Karthik Bhat 39 0 0 30 Jun 2024
Multimodal Prototyping for cancer survival prediction Andrew H. Song Richard J. Chen Guillaume Jaume Anurag J. Vaidya Alexander S. Baras Faisal Mahmood 43 15 0 28 Jun 2024
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy Xiang Li Cristina Mata J. Park Kumara Kahatapitiya Yoo Sung Jang ... Kanchana Ranasinghe R. Burgert Mu Cai Yong Jae Lee Michael S. Ryoo LM&Ro 77 26 0 28 Jun 2024
SpotlessSplats: Ignoring Distractors in 3D Gaussian Splatting S. Sabour Lily Goli George Kopanas Mark J. Matthews Dmitry Lagun Leonidas Guibas Alec Jacobson David J. Fleet Andrea Tagliasacchi 59 18 0 28 Jun 2024
Odd-One-Out: Anomaly Detection by Comparing with Neighbors A. Bhunia Changjian Li Hakan Bilen 75 0 0 28 Jun 2024
What Matters in Detecting AI-Generated Videos like Sora? Chirui Chang Zhengzhe Liu Xiaoyang Lyu Xiaojuan Qi DiffM VGen 93 7 0 27 Jun 2024
Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation Malvina Nikandrou Georgios Pantazopoulos Ioannis Konstas Alessandro Suglia 42 1 0 27 Jun 2024
Dense Monocular Motion Segmentation Using Optical Flow and Pseudo Depth Map: A Zero-Shot Approach Yuxiang Huang Yuhao Chen John S. Zelek MDE 54 2 0 27 Jun 2024