TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation

TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation

8 May 2025

ArXiv (abs)PDF HTML

Papers citing "TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation"

12 / 12 papers shown

Title
PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models Tianchen Zhao Ke Hong Xinhao Yang Xuefeng Xiao Huixia Li ... Ruiqi Xie Siqi Chen Hongyu Zhu Y. Zhang Yu Wang MQ VGen 19 0 0 19 Jun 2025
Show-o2: Improved Native Unified Multimodal Models Jinheng Xie Zhenheng Yang Mike Zheng Shou VGen 46 0 0 18 Jun 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Wei Wei Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan ... Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 315 1 0 05 May 2025
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation Zhenpeng Chen Chunwei Wang Xiuwei Chen Hongbin Xu Jiawei Han Xiandan Liang J. N. Han Hang Xu Xiaodan Liang VLM 183 2 0 09 Mar 2025
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features Michael Tschannen A. Gritsenko Xiao Wang Muhammad Ferjad Naeem Ibrahim Alabdulmohsin ... Basil Mustafa Olivier J. Hénaff Jeremiah Harmsen Andreas Steiner Xiaohua Zhai VLM 144 80 0 21 Feb 2025
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation Yue Zhao Fuzhao Xue Scott Reed Linxi Fan Yuke Zhu Jan Kautz Zhiding Yu Philipp Krahenbuhl De-An Huang MLLM CLIP VLM Presented at ResearchTrend Connect \| VLM on 23 Apr 2025 199 4 0 07 Feb 2025
Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling Xiaokang Chen Zhiyu Wu Xingchao Liu Zizheng Pan Wen Liu Zhenda Xie X. Yu Chong Ruan AI4TS 175 160 0 29 Jan 2025
Demystifying CLIP Data Hu Xu Saining Xie Xiaoqing Ellen Tan Po-Yao (Bernie) Huang Russell Howes Vasu Sharma Shang-Wen Li Gargi Ghosh Luke Zettlemoyer Christoph Feichtenhofer VLM CLIP 146 127 0 31 Dec 2024
Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads Siqi Kou Jiachun Jin Chang Liu Ye Ma Jian Jia Quan Chen Peng Jiang Zhijie Deng Zhijie Deng DiffM VGen VLM 243 12 0 28 Nov 2024
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan VLM 162 59 0 06 Sep 2024
DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers Lianwei Yang Haisong Gong Haokun Lin Yichen Wu Zhenan Sun Qingyi Gu MQ 120 4 0 06 Aug 2024
Chameleon: Mixed-Modal Early-Fusion Foundation Models Chameleon Team MLLM 212 338 0 16 May 2024

We use cookies and other tracking technologies to improve your browsing experience on our website, to show you personalized content and targeted ads, to analyze our website traffic, and to understand where our visitors are coming from. See our policy.