v1v2 (latest)

LayoutGPT: Compositional Visual Planning and Generation with Large Language Models

24 May 2023

Papers citing "LayoutGPT: Compositional Visual Planning and Generation with Large Language Models"

46 / 146 papers shown

Title
Chat Modeling: Natural Language-based Procedural Modeling of Biological Structures without Training Donggang Jia Yunhai Wang Ivan Viola 74 1 0 01 Apr 2024
PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation Jaejung Seol Seojun Kim Jaejun Yoo 3DV VLM 78 11 0 01 Apr 2024
LayoutFlow: Flow Matching for Layout Generation Julian Jorge Andrade Guerreiro Naoto Inoue Kento Masui Mayu Otani Hideki Nakayama DiffM 70 8 0 27 Mar 2024
GPT-Connect: Interaction between Text-Driven Human Motion Generator and 3D Scenes in a Training-free Manner Haoxuan Qu Ziyan Guo Jun Liu VGen 85 3 0 22 Mar 2024
ReGround: Improving Textual and Spatial Grounding at No Cost Yuseung Lee Minhyuk Sung DiffM 72 2 0 20 Mar 2024
Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning Hang Zhang Wenxiao Zhang Haoxuan Qu Jun Liu 112 4 0 15 Mar 2024
DivCon: Divide and Conquer for Progressive Text-to-Image Generation Yuhao Jia Wenhan Tan DiffM 102 1 0 11 Mar 2024
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment Xiwei Hu Rui Wang Yixiao Fang Bin-Bin Fu Pei Cheng Gang Yu VLM 124 103 0 08 Mar 2024
Discriminative Probing and Tuning for Text-to-Image Generation Leigang Qu Wenjie Wang Chak Tou Leong Hanwang Zhang Liqiang Nie Tat-Seng Chua 87 8 0 07 Mar 2024
RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models Xinchen Zhang Ling Yang Yaqi Cai Zhaochen Yu Kai-Ni Wang ... Ye Tian Minkai Xu Yong Tang Yujiu Yang Tengjiao Wang DiffM 107 6 0 20 Feb 2024
MuLan: Multimodal-LLM Agent for Progressive and Interactive Multi-Object Diffusion Sen Li Ruochen Wang Cho-Jui Hsieh Minhao Cheng Tianyi Zhou MLLM LM&Ro 77 3 0 20 Feb 2024
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting Xiaoyu Zhou Xingjian Ran Yajiao Xiong Jinlin He Zhiwei Lin Yongtao Wang Deqing Sun Ming-Hsuan Yang 3DGS 70 59 0 11 Feb 2024
MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis Dewei Zhou You Li Fan Ma Zongxin Yang Yi Yang DiffM 96 61 0 08 Feb 2024
InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior Chenguo Lin Yadong Mu 3DV 70 40 0 07 Feb 2024
InstanceDiffusion: Instance-level Control for Image Generation Xudong Wang Trevor Darrell Sai Saketh Rambhatla Rohit Girdhar Ishan Misra VLM DiffM 61 101 0 05 Feb 2024
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization Yang Jin Zhicheng Sun Kun Xu Kun Xu Liwei Chen ... Yuliang Liu Di Zhang Yang Song Kun Gai Yadong Mu VGen 111 51 0 05 Feb 2024
Holodeck: Language Guided Generation of 3D Embodied AI Environments Yue Yang Fan-Yun Sun Luca Weihs Eli VanderBilt Alvaro Herrasti ... Lingjie Liu Chris Callison-Burch Mark Yatskar Aniruddha Kembhavi Christopher Clark LM&Ro 131 92 0 14 Dec 2023
AnyHome: Open-Vocabulary Generation of Structured and Textured 3D Homes Rao Fu Zehao Wen Zichen Liu Srinath Sridhar 88 36 0 11 Dec 2023
SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained Object Insertion and Layout Control Jaskirat Singh Jianming Zhang Qing Liu Cameron Smith Zhe Lin Liang Zheng DiffM 80 11 0 08 Dec 2023
AVA: Towards Autonomous Visualization Agents through Visual Perception-Driven Decision-Making Shusen Liu Haichao Miao Zhimin Li M. Olson Valerio Pascucci P. Bremer 105 11 0 07 Dec 2023
Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models Yushi Hu Otilia Stretcu Chun-Ta Lu Krishnamurthy Viswanathan Kenji Hata Enming Luo Ranjay Krishna Ariel Fuxman VLM LRM MLLM 126 37 0 05 Dec 2023
Detailed Human-Centric Text Description-Driven Large Scene Synthesis Gwanghyun Kim Dong un Kang H. Seo Hayeon Kim Se Young Chun 3DV DiffM 61 2 0 30 Nov 2023
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following Yutong Feng Biao Gong Di Chen Yujun Shen Yu Liu Jingren Zhou DiffM 119 50 0 28 Nov 2023
MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video Generation Jingkuan Song Litao Guo Lianli Gao Hengtao Shen Jingkuan Song VGen 73 4 0 28 Nov 2023
TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering Jingye Chen Yupan Huang Tengchao Lv Lei Cui Qifeng Chen Furu Wei DiffM 128 70 0 28 Nov 2023
Self-correcting LLM-controlled Diffusion Models Tsung-Han Wu Long Lian Joseph E. Gonzalez Boyi Li Trevor Darrell 127 67 0 27 Nov 2023
FlowZero: Zero-Shot Text-to-Video Synthesis with LLM-Driven Dynamic Scene Syntax Yu Lu Linchao Zhu Hehe Fan Yi Yang VGen DiffM 83 13 0 27 Nov 2023
Paragraph-to-Image Generation with Information-Enriched Diffusion Model Weijia Wu Zhuang Li Yefei He Mike Zheng Shou Chunhua Shen Lele Cheng Yan Li Yan Li Di Zhang VLM 230 25 0 24 Nov 2023
Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation Daichi Horita Naoto Inoue Kotaro Kikuchi Kota Yamaguchi Kiyoharu Aizawa 3DV 93 16 0 22 Nov 2023
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning Jiaxi Lv Yi Huang Mingfu Yan Jiancheng Huang Jianzhuang Liu Yifan Liu Yafei Wen Xiaoxin Chen Shifeng Chen VGen DiffM 119 25 0 21 Nov 2023
UI Layout Generation with LLMs Guided by UI Grammar Yuwen Lu Ziang Tong Qinyi Zhao Chengzhi Zhang Toby Jia-Jun Li 83 12 0 24 Oct 2023
DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning Abhaysinh Zala Han Lin Jaemin Cho Mohit Bansal 91 16 0 18 Oct 2023
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts Hanan Gani Shariq Farooq Bhat Muzammal Naseer Salman Khan Peter Wonka DiffM 106 44 0 16 Oct 2023
Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation Using Vision Language Models Bangguo Yu Qihao Yuan Kailai Li Hamidreza Kasaei Ming Cao LM&Ro 115 28 0 11 Oct 2023
LLM for SoC Security: A Paradigm Shift Dipayan Saha Shams Tarek Katayoon Yahyaei S. Saha Jingbo Zhou M. Tehranipoor Farimah Farahmandi 175 54 0 09 Oct 2023
LLM-grounded Video Diffusion Models Long Lian Baifeng Shi Semih Yavuz Ye Liu Boyi Li DiffM 103 55 0 29 Sep 2023
Guiding Instruction-based Image Editing via Multimodal Large Language Models Johannes Frey Wenze Hu Xianzhi Du William Yang Wang Yinfei Yang Zhe Gan 114 98 0 29 Sep 2023
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning Han Lin Abhaysinh Zala Jaemin Cho Joey Tianyi Zhou LM&Ro VGen DiffM 148 81 0 26 Sep 2023
LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models Zecheng Tang Chenfei Wu Juntao Li Nan Duan 3DV 85 9 0 18 Sep 2023
NExT-GPT: Any-to-Any Multimodal LLM Shengqiong Wu Hao Fei Leigang Qu Wei Ji Tat-Seng Chua MLLM 115 507 0 11 Sep 2023
BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion Jinheng Xie Yuexiang Li Yawen Huang Haozhe Liu Wentian Zhang Yefeng Zheng Mike Zheng Shou DiffM 176 205 0 20 Jul 2023
Grounded Text-to-Image Synthesis with Attention Refocusing Quynh Phung Songwei Ge Jia-Bin Huang DiffM 117 113 0 08 Jun 2023
VisorGPT: Learning Visual Prior via Generative Pre-Training Jinheng Xie Kai Ye Yudong Li Yuexiang Li Kevin Qinghong Lin Yefeng Zheng Linlin Shen Mike Zheng Shou ViT 323 8 0 23 May 2023
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models Long Lian Boyi Li Adam Yala Trevor Darrell 106 164 0 23 May 2023
LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation Yujie Lu Xianjun Yang Xiujun Li Xinze Wang William Yang Wang EGVM 143 79 0 18 May 2023
LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer Ning Yu Chia-Chih Chen Zeyuan Chen Rui Meng Ganglu Wu P. Josel Juan Carlos Niebles Caiming Xiong Ran Xu ViT DiffM 92 8 0 19 Dec 2022