SynRES: Towards Referring Expression Segmentation in the Wild via Synthetic Data

23 May 2025

Papers citing "SynRES: Towards Referring Expression Segmentation in the Wild via Synthetic Data"

50 / 51 papers shown

Title
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data Yuanpeng Tu Xi Chen Ser-Nam Lim Hengshuang Zhao 95 1 0 03 Jan 2025
Finding NeMo: Negative-mined Mosaic Augmentation for Referring Image Segmentation Seongsu Ha Chaeyun Kim Donghwa Kim Junho Lee Sangho Lee Joonseok Lee 74 3 0 03 Nov 2024
GPT-4o System Card OpenAI OpenAI : Aaron Hurst Adam Lerer Adam P. Goucher ... Yuchen He Yuchen Zhang Yujia Jin Yunxing Dai Yury Malkov MLLM 121 750 0 25 Oct 2024
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers Enze Xie Junsong Chen Junyu Chen Han Cai Haotian Tang ... Zhekai Zhang Zhekai Zhang Ligeng Zhu Yaojie Lu Song Han VLM 73 63 0 14 Oct 2024
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation Yi-Chia Chen Wei-Hua Li Cheng Sun Yu-Chiang Frank Wang Chu-Song Chen VLM 63 16 0 01 Sep 2024
Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation Seonghoon Yu Paul Hongsuck Seo Jeany Son DiffM 83 5 0 10 Jul 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 93 27 0 28 Jun 2024
DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data Chengxiang Fan Muzhi Zhu Hao Chen Yang Liu Weijia Wu Huaqi Zhang Chunhua Shen DiffM 80 12 0 16 May 2024
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai VLM MLLM 56 37 0 21 Mar 2024
GSVA: Generalized Segmentation via Multimodal Large Language Models Zhuofan Xia Dongchen Han Yizeng Han Xuran Pan Shiji Song Gao Huang VLM 81 61 0 15 Dec 2023
PixelLM: Pixel Reasoning with Large Multimodal Model Zhongwei Ren Zhicheng Huang Yunchao Wei Yao-Min Zhao Dongmei Fu Jiashi Feng Xiaojie Jin VLM MLLM LRM 47 93 0 04 Dec 2023
SegGen: Supercharging Segmentation Models with Text2Mask and Mask2Img Synthesis Hanrong Ye Jason Kuen Qing Liu Zhe Lin Brian L. Price Dan Xu VLM 61 12 0 06 Nov 2023
GLaMM: Pixel Grounding Large Multimodal Model H. Rasheed Muhammad Maaz Sahal Shaji Mullappilly Abdelrahman M. Shaker Salman Khan Hisham Cholakkal Rao M. Anwer Erix Xing Ming-Hsuan Yang Fahad S. Khan MLLM VLM 74 219 0 06 Nov 2023
FreeMask: Synthetic Images with Dense Annotations Make Stronger Segmentation Models Lihe Yang Xiaogang Xu Bingyi Kang Yinghuan Shi Hengshuang Zhao 38 46 0 23 Oct 2023
Improved Baselines with Visual Instruction Tuning Haotian Liu Chunyuan Li Yuheng Li Yong Jae Lee VLM MLLM 82 2,593 0 05 Oct 2023
Towards reporting bias in visual-language datasets: bimodal augmentation by decoupling object-attribute association Qiyu Wu Mengjie Zhao Yutong He Lang Huang Junya Ono Hiromi Wakaki Yuki Mitsufuji 66 5 0 02 Oct 2023
Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation Quang H. Nguyen T. Vu Anh Tran Kim Dan Nguyen DiffM 50 85 0 25 Sep 2023
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation Jiahao Xie Wei Li Xiangtai Li Ziwei Liu Yew-Soon Ong Chen Change Loy DiffM VLM 95 36 0 22 Sep 2023
Beyond One-to-One: Rethinking the Referring Image Segmentation Yutao Hu Qixiong Wang Wenqi Shao Enze Xie Zhenguo Li Jungong Han Ping Luo 3DV 98 39 0 26 Aug 2023
LISA: Reasoning Segmentation via Large Language Model Xin Lai Zhuotao Tian Yukang Chen Yanwei Li Yuhui Yuan Shu Liu Jiaya Jia LM&Ro VLM MLLM LRM 80 424 0 01 Aug 2023
GRES: Generalized Referring Expression Segmentation Chang Liu Henghui Ding Xudong Jiang 60 150 0 01 Jun 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 334 4,506 0 17 Apr 2023
Segment Everything Everywhere All at Once Xueyan Zou Jianwei Yang Hao Zhang Feng Li Linjie Li Jianfeng Wang Lijuan Wang Jianfeng Gao Yong Jae Lee MLLM VLM 43 469 0 13 Apr 2023
Segment Anything A. Kirillov Eric Mintun Nikhila Ravi Hanzi Mao Chloe Rolland ... Spencer Whitehead Alexander C. Berg Wan-Yen Lo Piotr Dollár Ross B. Girshick MLLM VLM 238 7,047 0 05 Apr 2023
ARMBench: An Object-centric Benchmark Dataset for Robotic Manipulation Chaitanya Mitash Fan Wang Shiyang Lu Vikedo Terhuja T. Garaas F. Polido M. Nambi 84 28 0 29 Mar 2023
DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic Segmentation Using Diffusion Models Weijia Wu Yuzhong Zhao Mike Zheng Shou Hong Zhou Chunhua Shen 83 143 0 21 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 473 13,788 0 15 Mar 2023
Unleashing Text-to-Image Diffusion Models for Visual Perception Wenliang Zhao Yongming Rao Zuyan Liu Benlin Liu Jie Zhou Jiwen Lu ObjD VLM MDE 200 225 0 03 Mar 2023
PACO: Parts and Attributes of Common Objects Vignesh Ramanathan Anmol Kalia Vladan Petrovic Yiqian Wen Baixue Zheng ... Abhishek Kadian Amir Mousavi Yi-Zhe Song Abhimanyu Dubey D. Mahajan VLM 47 100 0 04 Jan 2023
Learning Multimodal Data Augmentation in Feature Space Zichang Liu Zhiqiang Tang Xingjian Shi Aston Zhang Mu Li Anshumali Shrivastava A. Wilson 61 22 0 29 Dec 2022
Generalized Decoding for Pixel, Image, and Language Xueyan Zou Zi-Yi Dou Jianwei Yang Zhe Gan Linjie Li ... Lu Yuan Nanyun Peng Lijuan Wang Yong Jae Lee Jianfeng Gao VLM MLLM ObjD 49 247 0 21 Dec 2022
X-Paste: Revisiting Scalable Copy-Paste for Instance Segmentation using CLIP and StableDiffusion Hanqing Zhao Dianmo Sheng Jianmin Bao Dongdong Chen Dong Chen ... Ce Liu Wenbo Zhou Qi Chu Weiming Zhang Neng H. Yu VLM DiffM 61 40 0 07 Dec 2022
Panoptic Scene Graph Generation Jingkang Yang Yi Zhe Ang Zujin Guo Kaiyang Zhou Wayne Zhang Ziwei Liu 87 111 0 22 Jul 2022
MixGen: A New Multi-Modal Data Augmentation Xiaoshuai Hao Yi Zhu Srikar Appalaraju Aston Zhang Wanqian Zhang Boyang Li Mu Li VLM 58 86 0 16 Jun 2022
CoCa: Contrastive Captioners are Image-Text Foundation Models Jiahui Yu Zirui Wang Vijay Vasudevan Legg Yeung Mojtaba Seyedhosseini Yonghui Wu VLM CLIP OffRL 122 1,279 0 04 May 2022
BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations Daiqing Li Huan Ling Seung Wook Kim Karsten Kreis Adela Barriuso Sanja Fidler Antonio Torralba 88 106 0 12 Jan 2022
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip Torr 188 317 0 04 Dec 2021
PartImageNet: A Large, High-Quality Dataset of Parts Ju He Shuo Yang Shaokang Yang Adam Kortylewski Xiaoding Yuan Jieneng Chen Shuai Liu Cheng Yang Qihang Yu Alan Yuille 3DV MLLM 3DH VLM 74 97 0 02 Dec 2021
CRIS: CLIP-Driven Referring Image Segmentation Zhaoqing Wang Yu Lu Qiang Li Xunqiang Tao Yan Guo Ming Gong Tongliang Liu VLM 93 367 0 30 Nov 2021
DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort Yuxuan Zhang Huan Ling Jun Gao K. Yin Jean-Francois Lafleche Adela Barriuso Antonio Torralba Sanja Fidler 3DH GAN VLM 44 333 0 13 Apr 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 666 28,659 0 26 Feb 2021
Denoising Diffusion Implicit Models Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 137 7,166 0 06 Oct 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 279 17,550 0 19 Jun 2020
CrowdHuman: A Benchmark for Detecting Human in a Crowd Shuai Shao Zijian Zhao Boxun Li Tete Xiao Gang Yu Xiangyu Zhang Jian Sun 249 681 0 30 Apr 2018
COCO-Stuff: Thing and Stuff Classes in Context Holger Caesar J. Uijlings V. Ferrari 107 1,377 0 12 Dec 2016
Modeling Context in Referring Expressions Licheng Yu Patrick Poirson Shan Yang Alexander C. Berg Tamara L. Berg 98 1,250 0 31 Jul 2016
The Cityscapes Dataset for Semantic Urban Scene Understanding Marius Cordts Mohamed Omran Sebastian Ramos Timo Rehfeld Markus Enzweiler Rodrigo Benenson Uwe Franke Stefan Roth Bernt Schiele 650 11,540 0 06 Apr 2016
Grounding of Textual Phrases in Images by Reconstruction Anna Rohrbach Marcus Rohrbach Ronghang Hu Trevor Darrell Bernt Schiele 53 497 0 12 Nov 2015
Generation and Comprehension of Unambiguous Object Descriptions Junhua Mao Jonathan Huang Alexander Toshev Oana-Maria Camburu Alan Yuille Kevin Patrick Murphy ObjD 85 1,331 0 07 Nov 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 143 5,421 0 03 May 2015