Multi-granularity Contrastive Cross-modal Collaborative Generation for
End-to-End Long-term Video Question Answering

Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering

12 October 2024

Kunhao Fu

Qingming Huang

Papers citing "Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering"

5 / 5 papers shown

Title
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 270 4,244 0 30 Jan 2023
Video Graph Transformer for Video Question Answering Junbin Xiao Pan Zhou Tat-Seng Chua Shuicheng Yan ViT 148 75 0 12 Jul 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 392 4,137 0 28 Jan 2022
Temporal Pyramid Transformer with Multimodal Interaction for Video Question Answering Min Peng Chongyang Wang Yuan Gao Yu Shi Xiangdong Zhou 42 3 0 10 Sep 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 280 1,982 0 09 Feb 2021