Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model

16 November 2024

Papers citing "Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model"

1 / 1 papers shown

Title
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning Bonan li Zicheng Zhang Songhua Liu Weihao Yu Xinchao Wang VLM 103 0 0 17 May 2025