MMCOMPOSITION: Revisiting the Compositionality of Pre-trained
Vision-Language Models

MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models

13 October 2024

Chenliang Xu

Papers citing "MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models"

4 / 4 papers shown

Title
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting Yunlong Tang Jing Bi Chao Huang Susan Liang Daiki Shimada ... Jinxi He Liu He Zeliang Zhang Jiebo Luo Chenliang Xu 37 0 0 07 Apr 2025
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data Haoxin Li Boyang Li CoGe 73 0 0 03 Mar 2025
Generative AI for Cel-Animation: A Survey Yunlong Tang Junjia Guo Pinxin Liu Zhiyuan Wang Hang Hua ... Jing Bi Mingqian Feng Xuran Li Zeliang Zhang Chenliang Xu VGen 88 7 0 08 Jan 2025
KinMo: Kinematic-aware Human Motion Understanding and Generation Pengfei Zhang Pinxin Liu Hyeongwoo Kim Pablo Garrido Bindita Chaudhuri 85 1 0 23 Nov 2024