ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models

27 May 2025

Papers citing "ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models"

2 / 2 papers shown

Title
Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding Ziyang Chen Mingxiao Li Zhongfu Chen Nan Du Xiaolong Li Yuexian Zou 144 1 0 19 Jan 2025
Round and Round We Go! What makes Rotary Positional Encodings useful? Federico Barbero Alex Vitvitskyi Christos Perivolaropoulos Razvan Pascanu Petar Velickovic 131 29 0 08 Oct 2024