Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

8 October 2024

Chenliang Xu

Papers citing "Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See"

1 / 1 papers shown

Title
Learning to Inference Adaptively for Multimodal Large Language Models Zhuoyan Xu Khoi Duc Nguyen Preeti Mukherjee Saurabh Bagchi Somali Chaterji Yingyu Liang Yin Li LRM 49 1 0 13 Mar 2025