PolyFormer: Referring Image Segmentation as Sequential Polygon Generation

14 February 2023

Papers citing "PolyFormer: Referring Image Segmentation as Sequential Polygon Generation"

22 / 22 papers shown

Title
RESAnything: Attribute Prompting for Arbitrary Referring Segmentation Ruiqi Wang Hao Zhang VLM 56 0 0 03 May 2025
HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models V. Bhat P. Krishnamurthy Ramesh Karri Farshad Khorrami 46 3 0 16 Sep 2024
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation Yi-Chia Chen Wei-Hua Li Cheng Sun Yu-Chiang Frank Wang Chu-Song Chen VLM 39 11 0 01 Sep 2024
Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models Takayuki Nishimura Katsuyuki Kuyo Motonari Kambara Komei Sugiura DiffM 30 0 0 01 Jul 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 55 24 0 28 Jun 2024
Rethinking Referring Object Removal Xiangtian Xue Jiasong Wu Youyong Kong L. Senhadji Huazhong Shu DiffM 37 0 0 14 Mar 2024
EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving Jiacheng Lin Jiajun Chen Kunyu Peng Xuan He Zhiyong Li Rainer Stiefelhagen Kailun Yang 48 6 0 28 Feb 2024
RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner Ying-Dong Zang Chenglong Fu Runlong Cao Didi Zhu Min Zhang Wenjun Hu Lanyun Zhu Tianrun Chen 32 6 0 08 Feb 2024
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model Shraman Pramanick Guangxing Han Rui Hou Sayan Nag Ser-Nam Lim Nicolas Ballas Qifan Wang Rama Chellappa Amjad Almahairi VLM MLLM 45 29 0 19 Dec 2023
Mask Grounding for Referring Image Segmentation Yong Xien Chng Henry Zheng Yizeng Han Xuchong Qiu Gao Huang ISeg ObjD 26 15 0 19 Dec 2023
Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation Minhyeok Lee Dogyoon Lee Jungho Lee Suhwan Cho Heeseung Choi Ig-Jae Kim Sangyoun Lee 28 0 0 29 Nov 2023
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks Bin Xiao Haiping Wu Weijian Xu Xiyang Dai Houdong Hu Yumao Lu Michael Zeng Ce Liu Lu Yuan VLM 36 143 0 10 Nov 2023
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model Jinjin Xu Liwu Xu Yuzhe Yang Xiang Li Fanyi Wang Yanchun Xie Yi-Jie Huang Yaqian Li MoE MLLM VLM 27 12 0 09 Nov 2023
Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models Minheng Ni Yabo Zhang Kailai Feng Xiaoming Li Yiwen Guo W. Zuo DiffM 18 24 0 31 Aug 2023
Hierarchical Open-vocabulary Universal Image Segmentation Xudong Wang Shufang Li Konstantinos Kallidromitis Yu Kato Kazuki Kozuka Trevor Darrell VLM OCL 37 36 0 03 Jul 2023
Extending CLIP's Image-Text Alignment to Referring Image Segmentation Seoyeon Kim Minguk Kang Dongwon Kim Jaesik Park Suha Kwak VLM 27 10 0 14 Jun 2023
Advancing Referring Expression Segmentation Beyond Single Image YiXuan Wu Zhao Zhang Xie Chi Feng Zhu Rui Zhao VLM 34 18 0 21 May 2023
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 141 306 0 04 Dec 2021
Pix2seq: A Language Modeling Framework for Object Detection Ting-Li Chen Saurabh Saxena Lala Li David J. Fleet Geoffrey E. Hinton MLLM ViT VLM 238 344 0 22 Sep 2021
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng Rongrong Ji ObjD 170 286 0 19 Mar 2020
A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension Yue Liao Si Liu Guanbin Li Fei-Yue Wang Yanjie Chen Chao Qian Bo-wen Li ObjD 62 174 0 16 Sep 2019
Spatial Transformer Networks Max Jaderberg Karen Simonyan Andrew Zisserman Koray Kavukcuoglu 144 7,335 0 05 Jun 2015