Title
Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot Fabien Baradel M. Armando Salma Galaaoui Romain Brégier Philippe Weinzaepfel Grégory Rogez Thomas Lucas 3DH 46 19 0 22 Feb 2024
CLCE: An Approach to Refining Cross-Entropy and Contrastive Learning for Optimized Learning Fusion Zijun Long George Killick Lipeng Zhuang Gerardo Aragon Camarasa Zaiqiao Meng R. McCreadie VLM 50 2 0 22 Feb 2024
Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition Feng Lu Lijun Zhang Xiangyuan Lan Shuting Dong Yaowei Wang Chun Yuan 48 28 0 22 Feb 2024
GAM-Depth: Self-Supervised Indoor Depth Estimation Leveraging a Gradient-Aware Mask and Semantic Constraints Anqi Cheng Zhiyuan Yang Haiyue Zhu Kezhi Mao MDE 56 1 0 22 Feb 2024
Subobject-level Image Tokenization Delong Chen Samuel Cahyawijaya Jianfeng Liu Baoyuan Wang Pascale Fung VLM OCL 60 7 0 22 Feb 2024
Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping Lucas Lehnert Sainbayar Sukhbaatar DiJia Su Qinqing Zheng Paul Mcvay Michael Rabbat Yuandong Tian 42 54 0 21 Feb 2024
SDXL-Lightning: Progressive Adversarial Diffusion Distillation Shanchuan Lin Anran Wang Xiao Yang 42 119 0 21 Feb 2024
VideoPrism: A Foundational Visual Encoder for Video Understanding Long Zhao N. B. Gundavarapu Liangzhe Yuan Hao Zhou Shen Yan ... Huisheng Wang Hartwig Adam Mikhail Sirotenko Ting Liu Boqing Gong VGen 50 29 0 20 Feb 2024
DINOBot: Robot Manipulation via Retrieval and Alignment with Vision Foundation Models Norman Di Palo Edward Johns LM&Ro 47 27 0 20 Feb 2024
MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction Shitao Tang Jiacheng Chen Dilin Wang Chengzhou Tang Fuyang Zhang Yuchen Fan Vikas Chandra Yasutaka Furukawa Rakesh Ranjan 43 67 0 20 Feb 2024
Object-level Geometric Structure Preserving for Natural Image Stitching Wenxiao Cai Wankou Yang 42 4 0 20 Feb 2024
DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal Category-level Pose Estimation Takuya Ikeda Sergey Zakharov Tianyi Ko Muhammad Zubair Irshad Robert Lee Katherine Liu Rares Andrei Ambrus Koichi Nishiwaki DiffM 39 12 0 20 Feb 2024
How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey Fabio Tosi Youming Zhang Ziren Gong Erik Sandström S. Mattoccia Martin R. Oswald Matteo Poggi 3DGS 86 57 0 20 Feb 2024
Integrating kNN with Foundation Models for Adaptable and Privacy-Aware Image Classification Sebastian Doerrich Tobias Archut Francesco Di Salvo Christian Ledig 27 4 0 19 Feb 2024
Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers Markus Hiller Krista A. Ehinger Tom Drummond 46 2 0 19 Feb 2024
Spike-EVPR: Deep Spiking Residual Network with Cross-Representation Aggregation for Event-Based Visual Place Recognition Chenming Hu Zheng Fang Kuanxu Hou Delei Kong Junjie Jiang Zhuang Hao Mingyuan Sun Xinjie Huang 29 3 0 16 Feb 2024
Revisiting Feature Prediction for Learning Visual Representations from Video Adrien Bardes Q. Garrido Jean Ponce Xinlei Chen Michael G. Rabbat Yann LeCun Mahmoud Assran Nicolas Ballas MDE VLM 95 75 0 15 Feb 2024
DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization Jisu Nam Heesu Kim Dongjae Lee Siyoon Jin Seungryong Kim Seunggyu Chang DiffM 32 40 0 15 Feb 2024
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models Siddharth Karamcheti Suraj Nair Ashwin Balakrishna Percy Liang Thomas Kollar Dorsa Sadigh MLLM VLM 59 104 0 12 Feb 2024
Task-conditioned adaptation of visual features in multi-task policy learning Pierre Marza L. Matignon Olivier Simonin Christian Wolf 53 2 0 12 Feb 2024
Evaluation of a Smart Mobile Robotic System for Industrial Plant Inspection and Supervision Georg K.J. Fischer M. Bergau D. A. Gómez-Rosal Andreas Wachaja Johannes Grater ... Nikhil Gosala Niklas Wetzel Daniel Buscher Abhinav Valada Wolfram Burgard 15 3 0 12 Feb 2024
Comparative Analysis of ImageNet Pre-Trained Deep Learning Models and DINOv2 in Medical Imaging Classification Yuning Huang Jingchen Zou Lanxi Meng Xin Yue Qing Zhao Jianqiang Li Changwei Song Gabriel Jimenez Shaowu Li Guanghui Fu 41 9 0 12 Feb 2024
Unsupervised Discovery of Object-Centric Neural Fields Rundong Luo Hong-Xing Yu Jiajun Wu 3DPC OCL 96 3 0 12 Feb 2024
A self-supervised framework for learning whole slide representations X. Hou Cheng Jiang A. Kondepudi Yiwei Lyu Asadur Chowdury Honglak Lee Todd C. Hollon MedIm 38 5 0 09 Feb 2024
Real-World Robot Applications of Foundation Models: A Review Kento Kawaharazuka T. Matsushima Andrew Gambardella Jiaxian Guo Chris Paxton Andy Zeng OffRL VLM LM&Ro 51 47 0 08 Feb 2024
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models Chris Liu Renrui Zhang Longtian Qiu Siyuan Huang Weifeng Lin ... Hao Shao Pan Lu Hongsheng Li Yu Qiao Peng Gao MLLM 130 110 0 08 Feb 2024
GSN: Generalisable Segmentation in Neural Radiance Field Vinayak Gupta Rahul Goel Dhawal Sirikonda P. J. Narayanan 33 1 0 07 Feb 2024
Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning Ningyuan Tang Minghao Fu Ke Zhu Jianxin Wu 56 9 0 06 Feb 2024
Challenges in Mechanistically Interpreting Model Representations Satvik Golechha James Dao 43 3 0 06 Feb 2024
Pre-training of Lightweight Vision Transformers on Small Datasets with Minimally Scaled Images Jen Hong Tan ViT 19 2 0 06 Feb 2024
3Doodle: Compact Abstraction of Objects with 3D Strokes Changwoon Choi Jaeah Lee Jaesik Park Young Min Kim 32 5 0 06 Feb 2024
PQMass: Probabilistic Assessment of the Quality of Generative Models using Probability Mass Estimation Pablo Lemos Sammy N. Sharief Nikolay Malkin Laurence Perreault Levasseur Y. Hezaveh Laurence Perreault-Levasseur Yashar Hezaveh 44 3 0 06 Feb 2024
Approximation Rates and VC-Dimension Bounds for (P)ReLU MLP Mixture of Experts Anastasis Kratsios Haitz Sáez de Ocáriz Borde Takashi Furuya Marc T. Law MoE 46 1 0 05 Feb 2024
Just Cluster It: An Approach for Exploration in High-Dimensions using Clustering and Pre-Trained Representations Stefan Sylvius Wagner Stefan Harmeling 29 2 0 05 Feb 2024
Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector Yu Fu Yu Wang Yixuan Pan Lian Huai Xingyu Qiu Zeyu Shangguan Tong Liu Yanwei Fu Luc Van Gool Xingqun Jiang 54 14 0 05 Feb 2024
Careful with that Scalpel: Improving Gradient Surgery with an EMA Yu-Guan Hsieh James Thornton Eugène Ndiaye Michal Klein Marco Cuturi Pierre Ablin MedIm 39 0 0 05 Feb 2024
Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning Haoyi Zhu Yating Wang Di Huang Weicai Ye Wanli Ouyang Tong He SSL 3DPC 59 20 0 04 Feb 2024
BECLR: Batch Enhanced Contrastive Few-Shot Learning Stylianos Poulakakis-Daktylidis Hadi Jamali Rad 33 5 0 04 Feb 2024
COMPRER: A Multimodal Multi-Objective Pretraining Framework for Enhanced Medical Image Representation Guy Lutsker H. Rossman Nastya Godiva E. Segal MedIm 43 1 0 04 Feb 2024
Region-Based Representations Revisited Michal Shlapentokh-Rothman Ansel Blume Yao Xiao Yuqun Wu TV Sethuraman Heyi Tao Jae Yong Lee Wilfredo Torres Yu-xiong Wang Derek Hoiem 44 5 0 04 Feb 2024
TartanDrive 2.0: More Modalities and Better Infrastructure to Further Self-Supervised Learning Research in Off-Road Driving Tasks Matthew Sivaprakasam Parv Maheshwari Mateo Guaman Castro S. Triest Micah Nye Steven Willits Andrew Saba Wenshan Wang Sebastian A. Scherer 48 14 0 02 Feb 2024
SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? Hasan Hammoud Hani Itani Fabio Pizzati Philip Torr Adel Bibi Guohao Li CLIP VLM 122 37 0 02 Feb 2024
A Survey for Foundation Models in Autonomous Driving Haoxiang Gao Yaqian Li Kaiwen Long Ming Yang Yiqing Shen VLM LRM 58 25 0 02 Feb 2024
Segment Any Change Zhuo Zheng Yanfei Zhong Liangpei Zhang Stefano Ermon VLM 26 12 0 02 Feb 2024
Local Feature Matching Using Deep Learning: A Survey Shibiao Xu Shunpeng Chen Rongtao Xu Changwei Wang Peng Lu Li Guo ObjD 36 32 0 31 Jan 2024
MouSi: Poly-Visual-Expert Vision-Language Models Xiaoran Fan Tao Ji Changhao Jiang Shuo Li Senjie Jin ... Qi Zhang Xipeng Qiu Xuanjing Huang Zuxuan Wu Yunchun Jiang VLM 32 16 0 30 Jan 2024
Online Robot Navigation and Manipulation with Distilled Vision-Language Models Kangcheng Liu 28 0 0 30 Jan 2024
EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain Wei Zhang Miaoxin Cai Tong Zhang Zhuang Yin Xuerui Mao 42 92 0 30 Jan 2024
MuSc: Zero-Shot Industrial Anomaly Classification and Segmentation with Mutual Scoring of the Unlabeled Images Xurui Li Ziming Huang Feng Xue Yu Zhou 30 20 0 30 Jan 2024
Computer Vision for Primate Behavior Analysis in the Wild Richard Vogg Timo Lüddecke Jonathan Henrich Sharmita Dey Matthias Nuske ... Alexander Gail Stefan Treue H. Scherberger Florentin Wörgötter Alexander S. Ecker 48 3 0 29 Jan 2024