FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression

21 November 2024

Papers citing "FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression"

8 / 8 papers shown

Title
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning Bonan li Zicheng Zhang Songhua Liu Weihao Yu Xinchao Wang VLM 9 0 0 17 May 2025
Slow-Fast Architecture for Video Multi-Modal Large Language Models Min Shi Shihao Wang Chieh-Yun Chen Jitesh Jain Kai Wang Junjun Xiong Guilin Liu Zhiding Yu Humphrey Shi 40 2 0 02 Apr 2025
On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices Bosung Kim Kyuhwan Lee Isu Jeong Jungmin Cheon Yeojin Lee Seulki Lee VGen 50 0 0 31 Mar 2025
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression Dongchen Lu Yuyao Sun Zilu Zhang Leping Huang Jianliang Zeng Mao Shu Huo Cao 44 0 0 27 Mar 2025
Beyond Intermediate States: Explaining Visual Redundancy through Language Dingchen Yang Bowen Cao Anran Zhang Weibo Gu Winston Hu Guang Chen VLM 79 0 0 26 Mar 2025
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference Cheng Yuan Ziqiang Liu Jiashu Lv Jiawei Shao Yufei Jiang Jun Zhang Xuelong Li 50 1 0 17 Mar 2025
AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding Xiao Wang Qingyi Si Jianlong Wu Shiyu Zhu Zheng Lin Liqiang Nie VLM 86 3 0 16 Mar 2025
LLaVA-Zip: Adaptive Visual Token Compression with Intrinsic Image Information Ke Wang Hong Xuan VLM 67 2 0 11 Dec 2024