Mask R-CNN

20 March 2017

Piotr Dollár

Papers citing "Mask R-CNN"

50 / 3,680 papers shown

Title
$\Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents$ \Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents Ilia Karmanov A. Deshmukh Lukas Voegtle Philipp Fischer Kateryna Chumachenko ... Jarno Seppänen Jupinder Parmar Joseph Jennings Andrew Tao Karan Sapra 73 0 0 06 Feb 2025
ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models Ying Zhang Maoliang Yin Wenfu Bi Haibao Yan Shaohan Bian Cui-Hua Zhang C. Hua 81 2 0 05 Feb 2025
Diff9D: Diffusion-Based Domain-Generalized Category-Level 9-DoF Object Pose Estimation Jian Liu Wei Sun Hui Yang Pengchao Deng Chongpei Liu N. Sebe Hossein Rahmani Ajmal Mian DiffM 125 2 0 04 Feb 2025
Nearly Lossless Adaptive Bit Switching Haiduo Huang Zhenhua Liu Tian Xia Wenzhe zhao Pengju Ren MQ 68 0 0 03 Feb 2025
Transfer Learning for Keypoint Detection in Low-Resolution Thermal TUG Test Images Wei-Lun Chen Chia-Yeh Hsieh Yu-Hsiang Kao Kai-Chun Liu Sheng-Yu Peng Yu Tsao 95 0 0 30 Jan 2025
Glissando-Net: Deep sinGLe vIew category level poSe eStimation ANd 3D recOnstruction Bo Sun Hao Kang Li Guan Haoxiang Li Philippos Mordohai Gang Hua 52 1 0 28 Jan 2025
Modulating CNN Features with Pre-Trained ViT Representations for Open-Vocabulary Object Detection Xiangyu Gao Yu Dai Benliu Qiu Hongliang Li Heqian Qiu Hongliang Li ObjD VLM 227 0 0 28 Jan 2025
SpineFM: Leveraging Foundation Models for Automatic Spine X-ray Segmentation Samuel J. Simons Bartłomiej W. Papież MedIm 105 0 0 28 Jan 2025
iFormer: Integrating ConvNet and Transformer for Mobile Application Chuanyang Zheng ViT 80 0 0 26 Jan 2025
Towards Robust Unsupervised Attention Prediction in Autonomous Driving Mengshi Qi Xiaoyang Bi Pengfei Zhu Huadong Ma 55 0 0 25 Jan 2025
PolaFormer: Polarity-aware Linear Attention for Vision Transformers Weikang Meng Yadan Luo Xin Li D. Jiang Zheng Zhang 237 0 0 25 Jan 2025
GAMED-Snake: Gradient-aware Adaptive Momentum Evolution Deep Snake Model for Multi-organ Segmentation Ruicheng Zhang Haowei Guo Zeyu Zhang Puxin Yan Shen Zhao 84 5 0 22 Jan 2025
TFLOP: Table Structure Recognition Framework with Layout Pointer Mechanism Minsoo Khang Teakgyu Hong LMTD 106 0 0 21 Jan 2025
Advancing Oyster Phenotype Segmentation with Multi-Network Ensemble and Multi-Scale mechanism Wenli Yang Yanyu Chen Andrew Trotter Byeong Kang 41 0 0 20 Jan 2025
AgRegNet: A Deep Regression Network for Flower and Fruit Density Estimation, Localization, and Counting in Orchards Uddhav Bhattarai Santosh Bhusal Qin Zhang Manoj Karkee 103 2 0 20 Jan 2025
Surface-SOS: Self-Supervised Object Segmentation via Neural Surface Representation Xiaoyun Zheng Liwei Liao Jianbo Jiao Feng Gao Ronggang Wang 88 6 0 20 Jan 2025
Enhancing Skin Disease Diagnosis: Interpretable Visual Concept Discovery with SAM Xin Hu Janet Wang Jihun Hamm R. Yotsu Zhengming Ding 103 0 0 17 Jan 2025
Enhancing Novel Object Detection via Cooperative Foundational Models Rohit K Bharadwaj Muzammal Naseer Salman Khan Fahad Shahbaz Khan ObjD VLM 164 1 0 17 Jan 2025
A method for estimating roadway billboard salience Zuzana Berger Haladova Michal Zrubec Zuzana Cernekova 50 0 0 13 Jan 2025
TipSegNet: Fingertip Segmentation in Contactless Fingerprint Imaging L. Ruzicka Bernhard Kohn Clemens Heitzinger 55 0 0 10 Jan 2025
Visual Semantic Navigation with Real Robots Carlos Gutiérrez-Álvarez Pablo Ríos-Navarro Rafael Flor-Rodríguez Francisco Javier Acevedo-Rodríguez Roberto J. López-Sastre 49 2 0 10 Jan 2025
Geometry Restoration and Dewarping of Camera-Captured Document Images Valery Istomin Oleg Pereziabov Ilya Afanasyev 48 0 0 10 Jan 2025
Solving the Catastrophic Forgetting Problem in Generalized Category Discovery Xinzi Cao Xiawu Zheng G. Wang Weijiang Yu Yunhang Shen Ke Li Yutong Lu Yonghong Tian CLL 54 4 0 09 Jan 2025
Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision Kangsheng Yin Quan Liu Xuelin Shen Yulin He Wenhan Yang Shiqi Wang VLM 44 0 0 08 Jan 2025
First-place Solution for Streetscape Shop Sign Recognition Competition Bin Wang Li Jing 221 0 0 06 Jan 2025
Noise-Tolerant Hybrid Prototypical Learning with Noisy Web Data Chao Liang Linchao Zhu Zongxin Yang Wei Chen Yi Yang NoLa 69 0 0 05 Jan 2025
Generalization-Enhanced Few-Shot Object Detection in Remote Sensing Hui Lin Nan Li Pengjuan Yao Kexin Dong Yuhan Guo Danfeng Hong Wenjie Qu Congcong Wen 118 4 0 05 Jan 2025
H-Net: A Multitask Architecture for Simultaneous 3D Force Estimation and Stereo Semantic Segmentation in Intracardiac Catheters Pedram Fekri M. Zadeh Javad Dargahi 35 0 0 03 Jan 2025
Unlocking adaptive digital pathology through dynamic feature learning Jiawen Li Tian Guan Qingxin Xia Yunhong Wang Xitong Ling ... Xiu-Wu Bian Zhilin Wang Lingchuan Guo Chao He Yonghong He AI4CE 36 0 0 31 Dec 2024
First qualitative observations on deep learning vision model YOLO and DETR for automated driving in Austria Stefan Schoder 48 0 0 31 Dec 2024
ERUP-YOLO: Enhancing Object Detection Robustness for Adverse Weather Condition by Unified Image-Adaptive Processing Yuka Ogino Yuho Shoji Takahiro Toizumi Atsushi Ito 57 1 0 31 Dec 2024
Differential Evolution Integrated Hybrid Deep Learning Model for Object Detection in Pre-made Dishes Lujia Lv Di Wu Yangyi Xia Jia Wu Xiaojing Liu Yi He 41 0 0 31 Dec 2024
VMamba: Visual State Space Model Yue Liu Yunjie Tian Yuzhong Zhao Hongtian Yu Lingxi Xie Yaowei Wang Qixiang Ye Jianbin Jiao Yunfan Liu Mamba 154 624 0 31 Dec 2024
PTQ4VM: Post-Training Quantization for Visual Mamba Younghyun Cho Changhun Lee Seonggon Kim Eunhyeok Park MQ Mamba 53 2 0 29 Dec 2024
Enhancing Contrastive Learning Inspired by the Philosophy of "The Blind Men and the Elephant" Yudong Zhang Ruobing Xie Jiansheng Chen Xingchen Sun Zhanhui Kang Yu Wang 91 0 0 21 Dec 2024
IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks Yaming Zhang Chenqiang Gao Fangcen Liu Junjie Guo Lan Wang Xinggan Peng Deyu Meng 109 0 0 21 Dec 2024
TimeRefine: Temporal Grounding with Time Refining Video LLM Xizi Wang Feng Cheng Ziyang Wang Huiyu Wang Md. Mohaiminul Islam Lorenzo Torresani Joey Tianyi Zhou Gedas Bertasius David J. Crandall 109 1 0 12 Dec 2024
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale Baorui Ma Huachen Gao Haoge Deng Zhengxiong Luo Tiejun Huang Lulu Tang Xinlong Wang DiffM VGen 125 14 0 09 Dec 2024
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding Qing Jiang Gen Luo Yuqin Yang Yuda Xiong Yihao Chen Zhaoyang Zeng Tianhe Ren Lei Zhang VLM LRM 109 7 0 27 Nov 2024
CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos Xinhao Liu Jiyang Li Yichen Jiang Niranjan Sujay Zheng Yang Juexiao Zhang John Abanes Jing Zhang Chen Feng 116 2 0 26 Nov 2024
Interpreting Object-level Foundation Models via Visual Precision Search Ruoyu Chen Siyuan Liang Jingzhi Li Shiming Liu Maosen Li Zheng Huang Qichuan Geng Xiaochun Cao FAtt 82 4 0 25 Nov 2024
VideoOrion: Tokenizing Object Dynamics in Videos Yicheng Feng Yijiang Li Wanpeng Zhang Sipeng Zheng Zongqing Lu Sipeng Zheng Zongqing Lu 109 1 0 25 Nov 2024
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation Linqing Zhong Chen Gao Zihan Ding Yue Liao Si Liu Shifeng Zhang Xu Zhou Si Liu LRM 95 4 0 25 Nov 2024
UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image Xingyu Liu Gu Wang Ruida Zhang Chenyangguang Zhang F. Tombari Xiangyang Ji 260 2 0 25 Nov 2024
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim 118 3 0 22 Nov 2024
CLIC: Contrastive Learning Framework for Unsupervised Image Complexity Representation Shipeng Liu Liang Zhao Dengfeng Chen SSL 118 1 0 19 Nov 2024
Breaking the Low-Rank Dilemma of Linear Attention Qihang Fan Huaibo Huang Ran He 55 1 0 12 Nov 2024
MSEG-VCUQ: Multimodal SEGmentation with Enhanced Vision Foundation Models, Convolutional Neural Networks, and Uncertainty Quantification for High-Speed Video Phase Detection Data Chika Maduabuchi Ericmoore Jossou Matteo Bucci 42 0 0 12 Nov 2024
On the Inherent Robustness of One-Stage Object Detection against Out-of-Distribution Data Aitor Martinez-Seras Javier Del Ser Alain Andres Pablo García Bringas Pablo Garcia-Bringas OODD 45 0 0 07 Nov 2024
CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation Jie Liu Pan Zhou Yingjun Du Ah-Hwee Tan Cees G. M. Snoek J. Sonke E. Gavves LLMAG 37 2 0 07 Nov 2024