Video Token Merging for Long-form Video Understanding

31 October 2024

Papers citing "Video Token Merging for Long-form Video Understanding"

2 / 2 papers shown

Title
VideoSAVi: Self-Aligned Video Language Models without Human Supervision Yogesh Kulkarni Pooyan Fazli VLM 103 2 0 01 Dec 2024
WorldSimBench: Towards Video Generation Models as World Simulators Yiran Qin Zhelun Shi Jiwen Yu Xijun Wang Enshen Zhou ... Lu Sheng Jing Shao Junlin Wu Wanli Ouyang Ruimao Zhang EGVM VGen 126 381 0 23 Oct 2024