A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models

6 September 2023

Papers citing "A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models"

2 / 2 papers shown

Title
InstructDET: Diversifying Referring Object Detection with Generalized Instructions Ronghao Dang Jiangyan Feng Haodong Zhang Chongjian Ge Lin Song ... Chengju Liu Qi Chen Feng Zhu Rui Zhao Yibing Song ObjD 32 11 0 08 Oct 2023
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019