Point and Ask: Incorporating Pointing into Visual Question Answering

Point and Ask: Incorporating Pointing into Visual Question Answering

27 November 2020

William Fu-Hinthorn

Olga Russakovsky

Papers citing "Point and Ask: Incorporating Pointing into Visual Question Answering"

11 / 11 papers shown

Title
LOVA3: Learning to Visual Question Answering, Asking and Assessment Henry Hengyuan Zhao Pan Zhou Difei Gao Zechen Bai Mike Zheng Shou 82 8 0 21 Feb 2025
The Labyrinth of Links: Navigating the Associative Maze of Multi-modal LLMs Hong Li Nanxi Li Yuanjie Chen Jianbin Zhu Qinlu Guo Cewu Lu Yong-Lu Li MLLM 45 1 0 02 Oct 2024
SkySenseGPT: A Fine-Grained Instruction Tuning Dataset and Model for Remote Sensing Vision-Language Understanding Junwei Luo Zhen Pang Yongjun Zhang Tingzhu Wang Linlin Wang ... Jiangwei Lao Jian Wang Jingdong Chen Yihua Tan Yansheng Li 50 23 0 14 Jun 2024
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs An Yan Zhengyuan Yang Junda Wu Wanrong Zhu Jianwei Yang ... K. Lin Jianfeng Wang Julian McAuley Jianfeng Gao Lijuan Wang LRM 36 12 0 25 Apr 2024
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want Weifeng Lin Xinyu Wei Ruichuan An Peng Gao Bocheng Zou Yulin Luo Siyuan Huang Shanghang Zhang Hongsheng Li VLM 71 33 0 29 Mar 2024
COCO is "ALL'' You Need for Visual Instruction Fine-tuning Xiaotian Han Yiqi Wang Bohan Zhai Quanzeng You Hongxia Yang VLM MLLM 35 2 0 17 Jan 2024
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model Shraman Pramanick Guangxing Han Rui Hou Sayan Nag Ser-Nam Lim Nicolas Ballas Qifan Wang Rama Chellappa Amjad Almahairi VLM MLLM 48 29 0 19 Dec 2023
Localized Questions in Medical Visual Question Answering Sergio Tascon-Morales Pablo Márquez-Neila Raphael Sznitman 24 8 0 03 Jul 2023
Visual Instruction Tuning with Polite Flamingo Delong Chen Jianfeng Liu Wenliang Dai Baoyuan Wang MLLM 36 42 0 03 Jul 2023
AssistSR: Task-oriented Video Segment Retrieval for Personal AI Assistant Stan Weixian Lei Difei Gao Yuxuan Wang Dongxing Mao Zihan Liang L. Ran Mike Zheng Shou 27 8 0 30 Nov 2021
A Review on Explainability in Multimodal Deep Neural Nets Gargi Joshi Rahee Walambe K. Kotecha 29 140 0 17 May 2021