PiTe: Pixel-Temporal Alignment for Large Video-Language Model

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

11 September 2024

Yang Liu

Siteng Huang

Min Zhang

Donglin Wang

Papers citing "PiTe: Pixel-Temporal Alignment for Large Video-Language Model"

4 / 4 papers shown

Title
Unifying Segment Anything in Microscopy with Multimodal Large Language Model Manyu Li Ruian He Zixian Zhang Weimin Tan Bo Yan VLM 12 0 0 16 May 2025
DMPT: Decoupled Modality-aware Prompt Tuning for Multi-modal Object Re-identification Minghui Lin Shu Wang Xiang Wang Jianhua Tang Longbin Fu Zhengrong Zuo Nong Sang VLM 47 0 0 15 Apr 2025
VLAS: Vision-Language-Action Model With Speech Instructions For Customized Robot Manipulation Wei Zhao Pengxiang Ding Hao Fei Zhefei Gong Shuanghao Bai Han Zhao Donglin Wang 93 6 0 24 Feb 2025
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 264 4,489 0 23 Jan 2020