v1v2 (latest)

Video Question Answering Using CLIP-Guided Visual-Text Attention

6 March 2023

Papers citing "Video Question Answering Using CLIP-Guided Visual-Text Attention"

2 / 2 papers shown

Title
MMRL: Multi-Modal Representation Learning for Vision-Language Models Yuncheng Guo Xiaodong Gu VLM OffRL 448 3 0 11 Mar 2025
Variational Information Pursuit with Large Language and Multimodal Models for Interpretable Predictions Kwan Ho Ryan Chan Aditya Chattopadhyay B. Haeffele René Vidal 57 0 0 24 Aug 2023