Glance and Focus: Memory Prompting for Multi-Event Video Question
Answering

Glance and Focus: Memory Prompting for Multi-Event Video Question Answering

3 January 2024

Ruiping Wang

Xilin Chen

Papers citing "Glance and Focus: Memory Prompting for Multi-Event Video Question Answering"

7 / 7 papers shown

Title
DyGEnc: Encoding a Sequence of Textual Scene Graphs to Reason and Answer Questions in Dynamic Scenes S. Linok Vadim Semenov Anastasia Trunova Oleg Bulichev Dmitry A. Yudin 52 0 0 06 May 2025
Leveraging Static Relationships for Intra-Type and Inter-Type Message Passing in Video Question Answering Lili Liang Guanglu Sun 50 0 0 03 Apr 2025
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios Shantanu Jaiswal Debaditya Roy Basura Fernando Cheston Tan ReLM LRM 79 2 0 20 Nov 2024
Localizing Events in Videos with Multimodal Queries Gengyuan Zhang Mang Ling Ada Fok Yan Xia Yansong Tang Daniel Cremers Philip H. S. Torr Volker Tresp Jindong Gu 31 1 0 14 Jun 2024
VideoAgent: Long-form Video Understanding with Large Language Model as Agent Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy VLM 113 83 0 15 Mar 2024
Video Graph Transformer for Video Question Answering Junbin Xiao Pan Zhou Tat-Seng Chua Shuicheng Yan ViT 148 75 0 12 Jul 2022
Bridge to Answer: Structure-aware Graph Interaction Network for Video Question Answering Jungin Park Jiyoung Lee K. Sohn 162 100 0 29 Apr 2021