Title
Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos Weirui Ye Fangchen Liu Z. Ding Yang Gao Oleh Rybkin Pieter Abbeel VGen OffRL 152 3 0 14 Feb 2025
HIPPo: Harnessing Image-to-3D Priors for Model-free Zero-shot 6D Pose Estimation Yibo Liu Zhaodong Jiang Binbin Xu Guile Wu Y. Ren Tongtong Cao Bingbing Liu Rui Heng Yang Amir Rasouli J. Shan 96 2 0 14 Feb 2025
Imit Diff: Semantics Guided Diffusion Transformer with Dual Resolution Fusion for Imitation Learning Yuhang Dong Haizhou Ge Yupei Zeng Jing Zhang Beiwen Tian ... Yufei Jia Ruixiang Wang Ran Yi Guyue Zhou Longhua Ma 110 1 0 11 Feb 2025
Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior Lee Hyoseok Kyeong Seon Kim Kwon Byung-Ki Tae-Hyun Oh MDE 435 0 0 10 Feb 2025
Digital Twin Buildings: 3D Modeling, GIS Integration, and Visual Descriptions Using Gaussian Splatting, ChatGPT/Deepseek, and Google Maps Platform K. Gao Dening Lu Liangzhi Li Nan Chen Hongjie He Linlin Xu Jonathan Li 3DGS 3DPC AI4CE 186 1 0 09 Feb 2025
LeAP: Consistent multi-domain 3D labeling using Foundation Models Simon Gebraad Andras Palffy Holger Caesar 352 1 0 06 Feb 2025
No Free Lunch in Annotation either: An objective evaluation of foundation models for streamlining annotation in animal tracking Emil Mededovic Valdy Laurentius Yuli Wu Marcin Kopaczka Zhu Chen Mareike Schulz René Tolba Johannes Stegmaier 172 1 0 06 Feb 2025
Tell2Reg: Establishing spatial correspondence between images by the same language prompts Wen Yan Qianye Yang Shiqi Huang Yipei Wang S. Punwani M. Emberton V. Stavrinides Yipeng Hu D. Barratt 138 0 0 05 Feb 2025
Foundation Model-Based Apple Ripeness and Size Estimation for Selective Harvesting Keyi Zhu Jiajia Li Kaixiang Zhang Chaaran Arunachalam Siddhartha Bhattacharya R. Lu Zhaojian Li 189 0 0 03 Feb 2025
RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception Joshua R. Waite Md Zahid Hasan Qisai Liu Zhanhong Jiang Chinmay Hegde Soumik Sarkar OffRL SyDa 289 1 0 31 Jan 2025
Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach A. H. Tan Angus Fung Haitong Wang G. Nejat 176 3 0 31 Jan 2025
A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches Luca Ciampi Ali Azmoudeh Elif Ecem Akbaba Erdi Sarıtaş Ziya Ata Yazıcı H. K. Ekenel Giuseppe Amato Fabrizio Falchi 188 0 0 31 Jan 2025
VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback Sayeh Gholipour Picha D. Chanti A. Caplier MedIm 117 0 0 29 Jan 2025
MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis Mai A. Shaaban Adnan Khan Mohammad Yaqub LM&MA 157 2 0 28 Jan 2025
Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation Reza Akbarian Bafghi Carden Bagwell Avinash Ravichandran Ashish Shrivastava M. Raissi 84 2 0 28 Jan 2025
An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control Aosong Feng Weikang Qiu Jinbin Bai Xiao Zhang Zhen Dong Kaicheng Zhou Rex Ying Leandros Tassiulas DiffM 126 6 0 28 Jan 2025
Recognize Any Surgical Object: Unleashing the Power of Weakly-Supervised Data Jiajie Li Brian R Quaranto Chenhui Xu Ishan Mishra Ruiyang Qin Dancheng Liu Peter C W Kim Jinjun Xiong 186 0 0 25 Jan 2025
PAID: A Framework of Product-Centric Advertising Image Design Hongyu Chen Min Zhou Jing Jiang Jiale Chen Yang Lu Bo Xiao T. Ge Bo Zheng DiffM VLM 150 0 0 24 Jan 2025
Parameter-Efficient Fine-Tuning for Foundation Models Dan Zhang Tao Feng Lilong Xue Yuandong Wang Yuxiao Dong J. Tang 242 12 0 23 Jan 2025
MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation Fu Rong Meng Lan Qian Zhang Lefei Zhang VOS VGen 117 1 0 23 Jan 2025
DynamicEarth: How Far are We from Open-Vocabulary Change Detection? Kaiyu Li Xiangyong Cao Yupeng Deng Chao Pang Zepeng Xin Deyu Meng Zhi Wang ObjD 153 1 0 22 Jan 2025
Can masking background and object reduce static bias for zero-shot action recognition? Takumi Fukuzawa Kensho Hara Hirokatsu Kataoka Toru Tamaki 124 1 0 22 Jan 2025
ViDDAR: Vision Language Model-Based Task-Detrimental Content Detection for Augmented Reality Yanming Xiu T. Scargill M. Gorlatova 106 2 0 22 Jan 2025
ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions Shiyue Zhang Zheng Chong Xi Lu Wenqing Zhang Haoxiang Li Xujie Zhang Jiehui Huang Xiao Dong Xiaodan Liang DiffM 86 0 0 21 Jan 2025
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks Zhenhailong Wang Haiyang Xu Junyang Wang Xi Zhang Ming Yan Junxuan Zhang Fei Huang Heng Ji 145 29 0 20 Jan 2025
Few-shot Structure-Informed Machinery Part Segmentation with Foundation Models and Graph Neural Networks Michael Schwingshackl Fabio Francisco Oberweger Markus Murschitz 80 1 0 20 Jan 2025
When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis Ruixuan Zhang Beichen Wang Juexiao Zhang Zilin Bian Chen Feng K. Ozbay 129 5 0 17 Jan 2025
Enhancing Novel Object Detection via Cooperative Foundational Models Rohit K Bharadwaj Muzammal Naseer Salman Khan Fahad Shahbaz Khan ObjD VLM 350 1 0 17 Jan 2025
Enhancing Skin Disease Diagnosis: Interpretable Visual Concept Discovery with SAM Xin Hu Janet Wang Jihun Hamm R. Yotsu Zhengming Ding 149 1 0 17 Jan 2025
VLG-CBM: Training Concept Bottleneck Models with Vision-Language Guidance Divyansh Srivastava Beatriz Cabrero-Daniel Christian Berger VLM 193 15 0 17 Jan 2025
Are Open-Vocabulary Models Ready for Detection of MEP Elements on Construction Sites Abdalwhab Abdalwhab A. Imran Sina Heydarian I. Iordanova David St-Onge 107 0 0 16 Jan 2025
SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing Varun Biyyala Bharat Chanderprakash Kathuria Jialu Li Youshan Zhang 119 0 0 13 Jan 2025
Guided SAM: Label-Efficient Part Segmentation S.B. van Rooij G.J. Burghouts VLM 78 0 0 13 Jan 2025
Toward Realistic Camouflaged Object Detection: Benchmarks and Method Zhimeng Xin Tianxu Wu Shiming Chen Shuo Ye Zijing Xie Yixiong Zou Xinge You Yufei Guo 57 0 0 13 Jan 2025
Motion Tracks: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning Juntao Ren Priya Sundaresan Dorsa Sadigh Sanjiban Choudhury Jeannette Bohg 145 19 0 13 Jan 2025
Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints Ming Dai Jian Li Jiedong Zhuang Xian Zhang Wankou Yang ObjD 101 2 0 12 Jan 2025
Static Segmentation by Tracking: A Label-Efficient Approach for Fine-Grained Specimen Image Segmentation Zhenyang Feng Zihe Wang Saul Ibaven Bueno Saul Ibaven Bueno Tomasz Frelek ... Hilmar Lapp Charles V. Stewart T. Berger-Wolf Yu-Chuan Su Wei-Lun Chao 94 0 0 12 Jan 2025
Multi-subject Open-set Personalization in Video Generation Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Yuwei Fang Kwot Sin Lee Ivan Skorokhodov Kfir Aberman Jun-Yan Zhu Ming-Hsuan Yang Sergey Tulyakov DiffM VGen 194 13 0 10 Jan 2025
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints Mingjie Pan Jiyao Zhang Tianshu Wu Yinghao Zhao Wenlong Gao Hao Dong LM&Ro 122 13 0 08 Jan 2025
Rare-to-Frequent: Unlocking Compositional Generation Power of Diffusion Models on Rare Concepts with LLM Guidance Dongmin Park Sebin Kim Taehong Moon Minkyu Kim Kangwook Lee Jaewoong Cho DiffM CoGe 122 5 0 08 Jan 2025
ORGANA: A Robotic Assistant for Automated Chemistry Experimentation and Characterization Kourosh Darvish Marta Skreta Yuchi Zhao Naruki Yoshikawa Sagnik Som ... Han Hao Haoping Xu Alán Aspuru-Guzik Animesh Garg Florian Shkurti 121 32 0 08 Jan 2025
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning Yuzhou Huang Ziyang Yuan Quande Liu Qiulin Wang Xintao Wang Ruimao Zhang Pengfei Wan Di Zhang Kun Gai VGen DiffM 157 16 0 08 Jan 2025
Dr. Tongue: Sign-Oriented Multi-label Detection for Remote Tongue Diagnosis Yiliang Chen Steven SC Ho Cheng Xu Yao Jie Xie Wing-Fai Yeung Shengfeng He Jing Qin LM&MA 108 0 0 06 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 179 15 0 06 Jan 2025
Cloth-Splatting: 3D Cloth State Estimation from RGB Supervision Alberta Longhini Marcel Büsching Bardienus P. Duisterhof Jens Lundell Jeffrey Ichnowski Mårten Björkman Jens Lundell 3DGS 87 4 0 03 Jan 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 365 59 0 03 Jan 2025
Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models Yifan Zhang Xianqiang Lyu 156 1 0 03 Jan 2025
Instruction-Guided Scene Text Recognition Yongkun Du Z. Chen Yuchen Su Caiyan Jia Yu-Gang Jiang 216 3 0 03 Jan 2025
Gaussian Building Mesh (GBM): Extract a Building's 3D Mesh with Google Earth and Gaussian Splatting K. Gao Liangzhi Li Hongjie He Dening Lu Linlin Xu Jonathan Li GP 3DGS 102 2 0 31 Dec 2024
YOLO-UniOW: Efficient Universal Open-World Object Detection Lihao Liu Juexiao Feng Hui Chen Ao Wang Lin Song Jiawei Han Guiguang Ding ObjD VLM 138 2 0 31 Dec 2024