Modeling Context in Referring Expressions

31 July 2016

Papers citing "Modeling Context in Referring Expressions"

50 / 275 papers shown

Title
Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited Samples Guanghui Li Mingqi Gao Heng Liu Xiantong Zhen Feng Zheng VOS 34 3 0 05 Sep 2023
VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders Xuyang Liu Siteng Huang Yachen Kang Honggang Chen Donglin Wang ObjD 38 12 0 03 Sep 2023
Language-Guided Diffusion Model for Visual Grounding Sijia Chen Baochun Li 37 5 0 18 Aug 2023
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions Henghui Ding Chang Liu Shuting He Xudong Jiang Chen Change Loy VOS 46 101 0 16 Aug 2023
Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models Dong Lu Zhiqiang Wang Teng Wang Weili Guan Hongchang Gao Feng Zheng AAML 58 65 0 26 Jul 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang Fahad Shahbaz Khan VLM 40 119 0 25 Jul 2023
Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation Zunnan Xu Zhihong Chen Yong Zhang Yibing Song Xiang Wan Guanbin Li VLM 35 48 0 21 Jul 2023
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo VLM MLLM 85 225 0 07 Jul 2023
Visual Instruction Tuning with Polite Flamingo Delong Chen Jianfeng Liu Wenliang Dai Baoyuan Wang MLLM 36 42 0 03 Jul 2023
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation Yonglin Li Jing Zhang Xiao Teng Long Lan VOS VLM 28 18 0 03 Jul 2023
Hierarchical Open-vocabulary Universal Image Segmentation Xudong Wang Shufang Li Konstantinos Kallidromitis Yu Kato Kazuki Kozuka Trevor Darrell VLM OCL 51 37 0 03 Jul 2023
Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for Referring Video Object Segmentation Meng Lan Fu Rong Zuchao Li Wei Yu Lefei Zhang VOS 36 5 0 02 Jul 2023
Extending CLIP's Image-Text Alignment to Referring Image Segmentation Seoyeon Kim Minguk Kang Dongwon Kim Jaesik Park Suha Kwak VLM 32 10 0 14 Jun 2023
MarineVRS: Marine Video Retrieval System with Explainability via Semantic Understanding Tan-Sang Ha Hai Nguyen-Truong Tuan-Anh Vu Sai-Kit Yeung 39 0 0 07 Jun 2023
Contextual Object Detection with Multimodal Large Language Models Yuhang Zang Wei Li Jun Han Kaiyang Zhou Chen Change Loy ObjD VLM MLLM 41 78 0 29 May 2023
Are Diffusion Models Vision-And-Language Reasoners? Benno Krojer Elinor Poole-Dayan Vikram S. Voleti Christopher Pal Siva Reddy 45 13 0 25 May 2023
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao VOS 24 30 0 25 May 2023
Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation Chang Liu Henghui Ding Yulun Zhang Xudong Jiang 31 47 0 24 May 2023
Pento-DIARef: A Diagnostic Dataset for Learning the Incremental Algorithm for Referring Expression Generation from Examples P. Sadler David Schlangen 29 2 0 24 May 2023
Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans Taiki Miyanishi Daich Azuma Shuhei Kurita M. Kawanabe 44 2 0 23 May 2023
Type-to-Track: Retrieve Any Object via Prompt-based Tracking Pha Nguyen Kha Gia Quach Kris Kitani Khoa Luu 45 18 0 22 May 2023
Advancing Referring Expression Segmentation Beyond Single Image YiXuan Wu Zhao Zhang Xie Chi Feng Zhu Rui Zhao VLM 34 18 0 21 May 2023
TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding Chenchi Zhang Jun Xiao Lei Chen Jian Shao Long Chen VLM LRM 34 2 0 19 May 2023
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities Peng Wang Shijie Wang Junyang Lin Shuai Bai Xiaohuan Zhou Jingren Zhou Xinggang Wang Chang Zhou VLM MLLM ObjD 50 116 0 18 May 2023
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks Weicheng Kuo A. Piergiovanni Dahun Kim Xiyang Luo Benjamin Caine ... Luowei Zhou Andrew M. Dai Zhifeng Chen Claire Cui A. Angelova MLLM VLM 37 23 0 29 Mar 2023
A Region-Prompted Adapter Tuning for Visual Abductive Reasoning Hao Zhang Yeo Keat Ee Basura Fernando VLM 29 3 0 18 Mar 2023
ViM: Vision Middleware for Unified Downstream Transferring Yutong Feng Biao Gong Jianwen Jiang Yiliang Lv Yujun Shen Deli Zhao Jingren Zhou 37 1 0 13 Mar 2023
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip Torr 51 23 0 11 Mar 2023
Referring Multi-Object Tracking Dongming Wu Wencheng Han Tiancai Wang Xingping Dong Xiangyu Zhang Jianbing Shen 40 71 0 06 Mar 2023
Unleashing Text-to-Image Diffusion Models for Visual Perception Wenliang Zhao Yongming Rao Zuyan Liu Benlin Liu Jie Zhou Jiwen Lu ObjD VLM MDE 163 218 0 03 Mar 2023
Which One Are You Referring To? Multimodal Object Identification in Situated Dialogue Holy Lovenia Samuel Cahyawijaya Pascale Fung 24 1 0 28 Feb 2023
Language-Driven Representation Learning for Robotics Siddharth Karamcheti Suraj Nair Annie S. Chen Thomas Kollar Chelsea Finn Dorsa Sadigh Percy Liang LM&Ro SSL 47 145 0 24 Feb 2023
Focusing On Targets For Improving Weakly Supervised Visual Grounding V. Pham Nao Mishima ObjD 26 1 0 22 Feb 2023
CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension Zhi Zhang H. Yannakoudakis Xiantong Zhen Ekaterina Shutova 29 2 0 17 Feb 2023
Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks Xinsong Zhang Yan Zeng Jipeng Zhang Hang Li VLM AI4CE LRM 27 17 0 12 Jan 2023
Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network Haowei Wang Jiayi Ji Yiyi Zhou Yongjian Wu Xiaoshuai Sun 35 15 0 09 Jan 2023
MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning Zhiyang Xu Ying Shen Lifu Huang MLLM 32 110 0 21 Dec 2022
Transferring General Multimodal Pretrained Models to Text Recognition Junyang Lin Xuancheng Ren Yichang Zhang Gao Liu Peng Wang An Yang Chang Zhou 34 4 0 19 Dec 2022
Fully and Weakly Supervised Referring Expression Segmentation with End-to-End Learning Hui Li Mingjie Sun Jimin Xiao Eng Gee Lim Yao-Min Zhao 29 20 0 17 Dec 2022
MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks Letitia Parcalabescu Anette Frank 40 22 0 15 Dec 2022
ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes Ahmed Abdelreheem Kyle Olszewski Hsin-Ying Lee Peter Wonka Panos Achlioptas 3DPC 24 28 0 12 Dec 2022
OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models Jinze Bai Rui Men Han Yang Xuancheng Ren Kai Dang ... Wenhang Ge Jianxin Ma Junyang Lin Jingren Zhou Chang Zhou 37 15 0 08 Dec 2022
CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation Zicheng Zhang Yi Zhu Jian-zhuo Liu Xiaodan Liang Wei Ke 36 29 0 04 Dec 2022
Abstract Visual Reasoning with Tangram Shapes Anya Ji Noriyuki Kojima N. Rush Alane Suhr Wai Keen Vong Robert D. Hawkins Yoav Artzi LRM 17 34 0 29 Nov 2022
Perceive, Ground, Reason, and Act: A Benchmark for General-purpose Visual Representation Jiangyong Huang William Zhu Baoxiong Jia Zan Wang Xiaojian Ma Qing Li Siyuan Huang 40 5 0 28 Nov 2022
Learning Object-Language Alignments for Open-Vocabulary Object Detection Chuang Lin Pei Sun Yi-Xin Jiang Ping Luo Lizhen Qu Gholamreza Haffari Zehuan Yuan Jianfei Cai VLM ObjD 29 95 0 27 Nov 2022
Who are you referring to? Coreference resolution in image narrations A. Goel Basura Fernando Frank Keller Hakan Bilen 27 3 0 26 Nov 2022
Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual Grounding Eslam Mohamed Bakr Yasmeen Alsaedy Mohamed Elhoseiny 3DPC 23 41 0 25 Nov 2022
Open-vocabulary Attribute Detection M. A. Bravo Sudhanshu Mittal Simon Ging Thomas Brox VLM ObjD 19 30 0 23 Nov 2022
A Unified Mutual Supervision Framework for Referring Expression Segmentation and Generation Shijia Huang Feng Li Hao Zhang Siyi Liu Lei Zhang Liwei Wang 30 5 0 15 Nov 2022