Multi-RAG: A Multimodal Retrieval-Augmented Generation System for Adaptive Video Understanding

29 May 2025

Papers citing "Multi-RAG: A Multimodal Retrieval-Augmented Generation System for Adaptive Video Understanding"

7 / 7 papers shown

Title
StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition Xin Ding Hao Wu Yue Yang Shiqi Jiang Donglin Bai Zhibo Chen Ting Cao 306 1 0 08 Mar 2025
Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension Yongdong Luo Xiawu Zheng Xiao Yang Guilin Li Haojia Lin Jinfa Huang Jiayi Ji Chia-Wen Lin Jiebo Luo Rongrong Ji VLM 113 19 0 20 Nov 2024
Text Summarization Using Large Language Models: A Comparative Study of MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models Lochan Basyal Mihir Sanghvi ELM 15 35 0 16 Oct 2023
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 537 28,659 0 26 Feb 2021
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 808 93,936 0 11 Oct 2018
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 314 129,831 0 12 Jun 2017
Efficient Estimation of Word Representations in Vector Space Tomas Mikolov Kai Chen G. Corrado J. Dean 3DV 508 31,406 0 16 Jan 2013