VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model

21 January 2025

Papers citing "VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model"

7 / 7 papers shown

Title
MMaDA: Multimodal Large Diffusion Language Models Ling Yang Ye Tian Bowen Li Xinchen Zhang Ke Shen Yunhai Tong Mengdi Wang VLM LRM 24 0 0 21 May 2025
iSegMan: Interactive Segment-and-Manipulate 3D Gaussians Yian Zhao Wanshi Xu Ruochong Zheng Pengchong Qiao Chang Liu Jie Chen 3DGS 19 0 0 17 May 2025
Open Set Domain Adaptation with Vision-language models via Gradient-aware Separation Haoyang Chen VLM 24 0 0 16 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Jiahui Geng Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 74 0 0 05 May 2025
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens Kaihang Pan Wang Lin Zhongqi Yue Tenglong Ao Liyu Jia Wei Zhao Juncheng Billy Li Siliang Tang Hanwang Zhang 58 2 0 20 Apr 2025
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning Xianwei Zhuang Yuxin Xie Yufan Deng Dongchao Yang Liming Liang Jinghan Ru Yuguo Yin Yuexian Zou 71 3 0 03 Apr 2025
Do we really have to filter out random noise in pre-training data for language models? Jinghan Ru Yuxin Xie Xianwei Zhuang Yuguo Yin Zhihui Guo Zhiming Liu Qianli Ren Yuexian Zou 88 4 0 10 Feb 2025