Modeling Context Between Objects for Referring Expression Understanding

1 August 2016

Papers citing "Modeling Context Between Objects for Referring Expression Understanding"

29 / 29 papers shown

Title
Computationally Efficient Diffusion Models in Medical Imaging: A Comprehensive Review Abdullah Tao Huang Ickjai Lee Euijoon Ahn MedIm 26 0 0 09 May 2025
RESAnything: Attribute Prompting for Arbitrary Referring Segmentation Ruiqi Wang Hao Zhang VLM 70 0 0 03 May 2025
LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation Jiachen Li Qing Xie Xiaohan Yu Hongyun Wang Jinyu Xu Yongjian Liu ObjD 81 0 0 20 Apr 2025
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception Ziqi Pang Xin Xu Yu-Xiong Wang DiffM 67 0 0 15 Apr 2025
Hybrid Global-Local Representation with Augmented Spatial Guidance for Zero-Shot Referring Image Segmentation Ting Liu Siyuan Li 44 0 0 01 Apr 2025
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding R. Hu Lianghui Zhu Yuxuan Zhang Tianheng Cheng Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang ObjD 61 0 0 13 Mar 2025
SwimVG: Step-wise Multimodal Fusion and Adaption for Visual Grounding Liangtao Shi Ting Liu Xiantao Hu Yue Hu Quanjun Yin Richang Hong ObjD 54 0 0 24 Feb 2025
AeroReformer: Aerial Referring Transformer for UAV-based Referring Image Segmentation Rui Li Xiaowei Zhao 71 0 0 23 Feb 2025
MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering Caixiong Li Xiongwei Zhao Jinhang Zhang Xing Zhang Qihao Sun Zhou Wu ObjD MLLM VLM 56 0 0 23 Feb 2025
Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints Ming Dai Jian Li Jiedong Zhuang Xian Zhang Wankou Yang ObjD 44 1 0 12 Jan 2025
MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension Ting Liu Zunnan Xu Yue Hu Liangtao Shi Zhiqiang Wang Quanjun Yin 65 2 0 03 Jan 2025
Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding Zilin Du Haoxin Li Jianfei Yu Boyang Li 194 0 0 01 Dec 2024
SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation Claudia Cuttano Gabriele Trivigno Gabriele Rosi Carlo Masone Giuseppe Averta VOS 109 2 0 26 Nov 2024
A Parameter-Efficient Tuning Framework for Language-guided Object Grounding and Robot Grasping Houjian Yu Mingen Li Alireza Rezazadeh Yang Yang Changhyun Choi 52 1 0 28 Sep 2024
HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models V. Bhat Prashanth Krishnamurthy Ramesh Karri Farshad Khorrami 46 4 0 16 Sep 2024
Learning Visual Grounding from Generative Vision and Language Model Shijie Wang Dahun Kim A. Taalimi Chen Sun Weicheng Kuo ObjD 36 5 0 18 Jul 2024
Visual Grounding with Attention-Driven Constraint Balancing Weitai Kang Luowei Zhou Junyi Wu Changchang Sun Yan Yan 45 4 0 03 Jul 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 61 25 0 28 Jun 2024
F-LMM: Grounding Frozen Large Multimodal Models Size Wu Sheng Jin Wenwei Zhang Lumin Xu Wentao Liu Wei Li Chen Change Loy MLLM 80 12 0 09 Jun 2024
Deep Instruction Tuning for Segment Anything Model Xiaorui Huang Gen Luo Chaoyang Zhu Bo Tong Yiyi Zhou Xiaoshuai Sun Rongrong Ji VLM 52 1 0 31 Mar 2024
Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions Wenxuan Wang Yisi Zhang Xingjian He Yichen Yan Zijia Zhao Xinlong Wang Jing Liu LM&Ro 27 4 0 17 Feb 2024
RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner Ying Zang Chenglong Fu Runlong Cao Didi Zhu Min Zhang Wenjun Hu Lanyun Zhu Tianrun Chen 32 6 0 08 Feb 2024
Mask Grounding for Referring Image Segmentation Yong Xien Chng Henry Zheng Yizeng Han Xuchong Qiu Gao Huang ISeg ObjD 45 15 0 19 Dec 2023
Language-Guided Diffusion Model for Visual Grounding Sijia Chen Baochun Li 37 5 0 18 Aug 2023
Extending CLIP's Image-Text Alignment to Referring Image Segmentation Seoyeon Kim Minguk Kang Dongwon Kim Jaesik Park Suha Kwak VLM 30 10 0 14 Jun 2023
Contextual Object Detection with Multimodal Large Language Models Yuhang Zang Wei Li Jun Han Kaiyang Zhou Chen Change Loy ObjD VLM MLLM 38 78 0 29 May 2023
Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning Li Yang Yan Xu Chunfen Yuan Wei Liu Bing Li Weiming Hu ObjD 50 113 0 30 Apr 2022
TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 30 94 0 30 Mar 2022
Aligning Linguistic Words and Visual Semantic Units for Image Captioning Longteng Guo Jing Liu Jinhui Tang Jiangwei Li W. Luo Hanqing Lu 25 102 0 06 Aug 2019