VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained
Video Reasoning via Core Frame Selection

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

22 November 2024

ArXiv (abs)PDF HTML Github (81★)

Papers citing "VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection"

2 / 2 papers shown

Title
Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing Yudong Liu Jingwei Sun Yueqian Lin Jingyang Zhang Ming Yin Qinsi Wang Jing Zhang Haoyang Li Yiran Chen VLM 134 2 0 13 Mar 2025
CoS: Chain-of-Shot Prompting for Long Video Understanding Jian Hu Zixu Cheng Chenyang Si Wei Li Shaogang Gong 101 8 0 10 Feb 2025