v1v2v3 (latest)

Text Promptable Surgical Instrument Segmentation with Vision-Language Models

15 June 2023

Zijian Zhou

ArXiv (abs)PDF HTML Github (37★)

Papers citing "Text Promptable Surgical Instrument Segmentation with Vision-Language Models"

22 / 22 papers shown

Title
Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement Zijie Yue Miaojing Shi Hanli Wang Shuai Ding Qijun Chen Shanlin Yang 81 0 0 11 Jul 2024
CholecInstanceSeg: A Tool Instance Segmentation Dataset for Laparoscopic Surgery Oluwatosin O. Alabi K. Toe Zijian Zhou Charlie Budd Nicholas Raison Miaojing Shi Tom Vercauteren ISeg 99 1 0 23 Jun 2024
Zero-shot Referring Image Segmentation with Global-Local Context Features S. Yu Paul Hongsuck Seo Jeany Son 70 53 0 31 Mar 2023
MATIS: Masked-Attention Transformers for Surgical Instrument Segmentation Nicolás Ayobi Alejandra Pérez-Rondón Santiago Rodríguez Pablo Arbelaez MedIm 93 21 0 16 Mar 2023
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 200 3,493 0 16 Oct 2022
Towards Understanding Mixture of Experts in Deep Learning Zixiang Chen Yihe Deng Yue-bo Wu Quanquan Gu Yuan-Fang Li MLT MoE 81 57 0 04 Aug 2022
Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model Yu Du Fangyun Wei Zihe Zhang Miaojing Shi Yue Gao Guoqi Li VPVLM VLM 81 334 0 28 Mar 2022
TraSeTR: Track-to-Segment Transformer with Contrastive Query for Instance-level Instrument Segmentation in Robotic Surgery Zixu Zhao Yueming Jin Pheng-Ann Heng MedIm 71 47 0 17 Feb 2022
CRIS: CLIP-Driven Referring Image Segmentation Zhaoqing Wang Yu Lu Qiang Li Xunqiang Tao Yan Guo Ming Gong Tongliang Liu VLM 113 371 0 30 Nov 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 477 7,819 0 11 Nov 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 505 2,409 0 02 Sep 2021
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision Zirui Wang Jiahui Yu Adams Wei Yu Zihang Dai Yulia Tsvetkov Yuan Cao VLM MLLM 136 799 0 24 Aug 2021
Vision-Language Transformer and Query Generation for Referring Segmentation Henghui Ding Chang-rui Liu Suchen Wang Xudong Jiang 81 266 0 12 Aug 2021
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP Han Fang Pengfei Xiong Luhui Xu Yu Chen CLIP VLM 103 299 0 21 Jun 2021
Scaling Vision with Sparse Mixture of Experts C. Riquelme J. Puigcerver Basil Mustafa Maxim Neumann Rodolphe Jenatton André Susano Pinto Daniel Keysers N. Houlsby MoE 112 609 0 10 Jun 2021
StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery Or Patashnik Zongze Wu Eli Shechtman Daniel Cohen-Or Dani Lischinski CLIP VLM 129 1,209 0 31 Mar 2021
ISINet: An Instance-Based Approach for Surgical Instrument Segmentation Cristina González Laura Bravo-Sánchez Pablo Arbeláez 79 81 0 10 Jul 2020
Robust Medical Instrument Segmentation Challenge 2019 T. Ross Annika Reinke Peter M. Full M. Wagner H. Kenngott ... Lei Zhu Manuel Wiesenfarth A. Kopp-Schneider Beat P. Müller-Stich Lena Maier-Hein 89 44 0 23 Mar 2020
End-to-End Learning of Visual Representations from Uncurated Instructional Videos Antoine Miech Jean-Baptiste Alayrac Lucas Smaira Ivan Laptev Josef Sivic Andrew Zisserman VGen SSL 128 713 0 13 Dec 2019
Incorporating Temporal Prior from Motion Flow for Instrument Segmentation in Minimally Invasive Surgery Video Yueming Jin Keyun Cheng Qi Dou Pheng-Ann Heng 72 120 0 18 Jul 2019
Feature Pyramid Networks for Object Detection Nayeon Lee Piotr Dollár Ross B. Girshick Kaiming He Bharath Hariharan Serge J. Belongie ObjD 485 22,143 0 09 Dec 2016
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 432 10,531 0 21 Jul 2016