Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs

1 April 2024

Papers citing "Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs"

1 / 1 papers shown

Title
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning Jun Chen Deyao Zhu Xiaoqian Shen Xiang Li Zechun Liu Pengchuan Zhang Raghuraman Krishnamoorthi Vikas Chandra Yunyang Xiong Mohamed Elhoseiny MLLM 168 448 0 14 Oct 2023