GRES: Generalized Referring Expression Segmentation

1 June 2023

Papers citing "GRES: Generalized Referring Expression Segmentation"

50 / 128 papers shown

Title
Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension Zaiquan Yang Yuhao Liu Jiaying Lin Gerhard Hancke Rynson W. H. Lau 91 2 0 02 Oct 2024
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos Zechen Bai Tong He Haiyang Mei Pichao Wang Ziteng Gao Joya Chen Lei Liu Zheng Zhang Mike Zheng Shou VLM VOS MLLM 91 27 0 29 Sep 2024
SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion Ming Dai Lingfeng Yang Yihao Xu Zhenhua Feng Wankou Yang ObjD 125 13 0 26 Sep 2024
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions Weifeng Lin Xinyu Wei Renrui Zhang Le Zhuo Shitian Zhao ... Junlin Xie Junlin Xie Yu Qiao Peng Gao Hongsheng Li MLLM DiffM 192 14 0 23 Sep 2024
LSVOS Challenge Report: Large-scale Complex and Long Video Object Segmentation Henghui Ding Lingyi Hong Chang Liu Ning Xu L. Yang ... Bin Cao Yisi Zhang Hanyi Wang Xingjian He Jing Liu VOS 94 2 0 09 Sep 2024
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation Yi-Chia Chen Wei-Hua Li Cheng Sun Yu-Chiang Frank Wang Chu-Song Chen VLM 108 21 0 01 Sep 2024
Depth-Weighted Detection of Behaviours of Risk in People with Dementia using Cameras Pratik K. Mishra Irene Ballester Andrea Iaboni Bing Ye Kristine Newman Alex Mihailidis Shehroz S. Khan 81 0 0 28 Aug 2024
Image Segmentation in Foundation Model Era: A Survey Tianfei Zhou Fei Zhang Boyu Chang Wenguan Wang Ye Yuan E. Konukoglu Daniel Cremers VLM 142 12 0 23 Aug 2024
Visual Agents as Fast and Slow Thinkers Guangyan Sun Mingyu Jin Zhenting Wang Cheng-Long Wang Siqi Ma Qifan Wang Ying Nian Wu Ying Nian Wu Dongfang Liu Dongfang Liu LLMAG LRM 222 19 0 16 Aug 2024
Towards Flexible Visual Relationship Segmentation Fangrui Zhu Jianwei Yang Huaizu Jiang VOS 100 2 0 15 Aug 2024
DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions Ryosuke Korekata Kanta Kaneda Shunya Nagashima Yuto Imai Komei Sugiura ObjD LM&Ro 84 2 0 15 Aug 2024
An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual Grounding Wei Chen Mahdieh Hatamian Yu Wu 102 5 0 02 Aug 2024
Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models Xiang Shi Jiawei Liu Yinpeng Liu Qikai Cheng Wei Lu 76 0 0 26 Jul 2024
Learning Visual Grounding from Generative Vision and Language Model Shijie Wang Dahun Kim A. Taalimi Chen Sun Weicheng Kuo ObjD 111 7 0 18 Jul 2024
SegPoint: Segment Any Point Cloud via Large Language Model Shuting He Henghui Ding Xudong Jiang Bihan Wen 3DV MLLM 3DPC 90 19 0 18 Jul 2024
VISA: Reasoning Video Object Segmentation via Large Language Models Cilin Yan Haochen Wang Shilin Yan Xiaolong Jiang Yao Hu Guoliang Kang Weidi Xie E. Gavves LRM VLM VOS 108 41 0 16 Jul 2024
Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation Seonghoon Yu Paul Hongsuck Seo Jeany Son DiffM 153 6 0 10 Jul 2024
ActionVOS: Actions as Prompts for Video Object Segmentation Liangyang Ouyang Ruicong Liu Yifei Huang Ryosuke Furuta Yoichi Sato VOS 79 2 0 10 Jul 2024
CPM: Class-conditional Prompting Machine for Audio-visual Segmentation Yuanhong Chen Chong Wang Yuyuan Liu Hu Wang Gustavo Carneiro 134 4 0 07 Jul 2024
Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models Takayuki Nishimura Katsuyuki Kuyo Motonari Kambara Komei Sugiura DiffM 95 0 0 01 Jul 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 196 31 0 28 Jun 2024
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding Tao Zhang Xiangtai Li Hao Fei Haobo Yuan Shengqiong Wu Shunping Ji Chen Change Loy Shuicheng Yan LRM MLLM VLM 139 63 0 27 Jun 2024
PVUW 2024 Challenge on Complex Video Understanding: Methods and Results Henghui Ding Chang Liu Yunchao Wei Nikhila Ravi Shuting He ... Bo Zhao Jing Liu Feiyu Pan Hao Fang Xiankai Lu 110 8 0 24 Jun 2024
F-LMM: Grounding Frozen Large Multimodal Models Size Wu Sheng Jin Wenwei Zhang Lumin Xu Wentao Liu Wei Li Chen Change Loy MLLM 193 15 0 09 Jun 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 160 37 0 07 Jun 2024
HDC: Hierarchical Semantic Decoding with Counting Assistance for Generalized Referring Expression Segmentation Zhuoyan Luo Yinghao Wu Yong-Jin Liu Yicheng Xiao Xiao-Ping Zhang Yujiu Yang 99 0 0 24 May 2024
Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation Weize Li Zhicheng Zhao Haochen Bai Fei Su 124 0 0 24 May 2024
Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension Runwei Guan Ruixiao Zhang Ningwei Ouyang Tao Huang Ka Lok Man ... Ming Xu Jeremy S. Smith Eng Gee Lim Yutao Yue Hui Xiong 219 10 0 21 May 2024
HARIS: Human-Like Attention for Reference Image Segmentation Mengxi Zhang Heqing Lian Yiming Liu Jie Chen VLM 73 0 0 17 May 2024
LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning Junchi Wang Lei Ke MLLM LRM VLM 81 29 0 12 Apr 2024
LaSagnA: Language-based Segmentation Assistant for Complex Queries Cong Wei Haoxian Tan Yujie Zhong Yujiu Yang Lin Ma 113 17 0 12 Apr 2024
CoReS: Orchestrating the Dance of Reasoning and Segmentation Xiaoyi Bao Siyang Sun Shuailei Ma Kecheng Zheng Yuxin Guo Guosheng Zhao Yun Zheng Xingang Wang LRM 120 10 0 08 Apr 2024
Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation Shuting He Henghui Ding VOS 87 25 0 04 Apr 2024
ReMamber: Referring Image Segmentation with Mamba Twister Yu-Hao Yang Chaofan Ma Jiangchao Yao Zhun Zhong Ya Zhang Yanfeng Wang Mamba 108 24 0 26 Mar 2024
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai VLM MLLM 127 47 0 21 Mar 2024
Empowering Segmentation Ability to Multi-modal Large Language Models Yuqi Yang Peng-Tao Jiang Jing Wang Hao Zhang Kai Zhao Jinwei Chen Yue Liu LRM VLM 86 4 0 21 Mar 2024
WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar Runwei Guan Liye Jia Fengyufan Yang Shanliang Yao Erick Purwanto ... Eng Gee Lim Jeremy S. Smith Ka Lok Man Xuming Hu Yutao Yue 119 9 0 19 Mar 2024
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models Yang Jiao Shaoxiang Chen Zequn Jie Wenke Huang Lin Ma Yueping Jiang MLLM 83 20 0 12 Mar 2024
Multimodal Infusion Tuning for Large Models Hao Sun Yu Song Xinyao Yu Jiaqing Liu Yen-Wei Chen Lanfen Lin VLM 81 0 0 08 Mar 2024
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception Jun-Yan He Yifan Wang Lijun Wang Huchuan Lu Jun-Yan He Jinpeng Lan Bin Luo Xuansong Xie MLLM VLM 98 22 0 05 Mar 2024
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation Yichi Zhang Ziqiao Ma Xiaofeng Gao Suhaila Shakiah Qiaozi Gao Joyce Chai MLLM VLM 133 47 0 26 Feb 2024
RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner Ying Zang Chenglong Fu Runlong Cao Didi Zhu Min Zhang Wenjun Hu Lanyun Zhu Tianrun Chen 85 6 0 08 Feb 2024
Generalizable Entity Grounding via Assistance of Large Language Model Lu Qi Yi-Wen Chen Lehan Yang Tiancheng Shen Xiangtai Li Weidong Guo Yu-Syuan Xu Ming-Hsuan Yang VLM 133 9 0 04 Feb 2024
Generating Enhanced Negatives for Training Language-Based Object Detectors Shiyu Zhao Long Zhao Vijay Kumar B.G Yumin Suh Dimitris N. Metaxas Manmohan Chandraker S. Schulter ObjD VLM 119 6 0 29 Dec 2023
LISA++: An Improved Baseline for Reasoning Segmentation with Large Language Model Senqiao Yang Tianyuan Qu Xin Lai Zhuotao Tian Bohao Peng Shu Liu Jiaya Jia VLM 120 32 0 28 Dec 2023
FoodLMM: A Versatile Food Assistant using Large Multi-modal Model Yuehao Yin Huiyan Qi B. Zhu Jingjing Chen Yu-Gang Jiang Chong-Wah Ngo 87 21 0 22 Dec 2023
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model Shraman Pramanick Guangxing Han Rui Hou Sayan Nag Ser-Nam Lim Nicolas Ballas Qifan Wang Rama Chellappa Amjad Almahairi VLM MLLM 167 36 0 19 Dec 2023
Mask Grounding for Referring Image Segmentation Yong Xien Chng Henry Zheng Yizeng Han Xuchong Qiu Gao Huang ISeg ObjD 141 21 0 19 Dec 2023
GSVA: Generalized Segmentation via Multimodal Large Language Models Zhuofan Xia Dongchen Han Yizeng Han Xuran Pan Shiji Song Gao Huang VLM 150 68 0 15 Dec 2023
Pixel Aligned Language Models Jiarui Xu Xingyi Zhou Shen Yan Xiuye Gu Anurag Arnab Chen Sun Xiaolong Wang Cordelia Schmid MLLM VLM 132 15 0 14 Dec 2023