v1v2 (latest)

LayoutGPT: Compositional Visual Planning and Generation with Large Language Models

24 May 2023

Papers citing "LayoutGPT: Compositional Visual Planning and Generation with Large Language Models"

50 / 146 papers shown

Title
Visual-Instructed Degradation Diffusion for All-in-One Image Restoration Wenyang Luo Haina Qin Zewen Chen L. xilinx Wang Dandan Zheng Yuming Li Yufan Liu B. Li Weiming Hu 22 0 0 20 Jun 2025
LLM-driven Indoor Scene Layout Generation via Scaled Human-aligned Data Synthesis and Multi-Stage Preference Optimization Yixuan Yang Zhen Luo Tongsheng Ding Junru Lu Mingqi Gao Jinyu Yang Victor Sanchez Feng Zheng 3DV 19 0 0 09 Jun 2025
ReSpace: Text-Driven 3D Scene Synthesis and Editing with Preference Alignment Martin JJ. Bucher Iro Armeni DiffM 63 0 0 03 Jun 2025
IMAGHarmony: Controllable Image Editing with Consistent Object Quantity and Layout Fei Shen Xiaoyu Du Yutong Gao Jian Yu Yushe Cao Xing Lei Jinhui Tang DiffM 61 0 0 02 Jun 2025
ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image Intermediary Zeqi Gu Yin Cui Zhaoshuo Li Fangyin Wei Yunhao Ge Jinwei Gu Ming-Yu Liu Abe Davis Yifan Ding 25 0 0 31 May 2025
ComposeAnything: Composite Object Priors for Text-to-Image Generation Zeeshan Khan Shizhe Chen Cordelia Schmid DiffM CoGe 52 0 0 30 May 2025
Fusion Intelligence for Digital Twinning AI Data Centers: A Synergistic GenAI-PhyAI Approach R. Wang Minghao Li Zhiwei Cao Jimin Jia K. Guan Yonggang Wen AI4CE 36 0 0 26 May 2025
Constructing a 3D Town from a Single Image Kaizhi Zheng Ruijian Zhang Jing Gu Jie Yang Xin Eric Wang 119 0 0 21 May 2025
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation Yanbo Ding Xirui Hu Zhizhi Guo Yansen Wang Yali Wang DiffM VGen 149 0 0 15 May 2025
Lay-Your-Scene: Natural Scene Layout Generation with Diffusion Transformers Divyansh Srivastava Xiang Zhang He Wen Chenru Wen Zhuowen Tu DiffM 77 0 0 07 May 2025
PosterO: Structuring Layout Trees to Enable Language Models in Generalized Content-Aware Layout Generation HsiaoYuan Hsu Yuxin Peng 91 0 0 06 May 2025
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation Lu Ling C. Lin Nayeon Lee Yin Cui Y. Zeng Yichen Sheng Yunhao Ge Ming-Yuan Liu Aniket Bera Zhaoshuo Li VGen 3DV 122 2 0 05 May 2025
MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation Mingcheng Li Xiaolu Hou Ziyang Liu Dingkang Yang Ziyun Qian Jiawei Chen Jinjie Wei Yiheng Jiang Qingyao Xu Li Zhang DiffM 488 0 0 05 May 2025
VSC: Visual Search Compositional Text-to-Image Diffusion Model Do Huu Dat Nam Hyeonu Po Yuan Mao Tae-Hyun Oh DiffM CoGe 119 0 0 02 May 2025
Improving Editability in Image Generation with Layer-wise Memory Daneul Kim Jaeah Lee Jaesik Park DiffM KELM 150 0 0 02 May 2025
CasaGPT: Cuboid Arrangement and Scene Assembly for Interior Design Weitao Feng Hang Zhou Jing Liao Li Cheng Wenbo Zhou 3DV 84 0 0 28 Apr 2025
CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback Chenhan Jiang Yihan Zeng Hang Xu Dit-Yan Yeung 82 0 0 28 Apr 2025
ScanEdit: Hierarchically-Guided Functional 3D Scan Editing Mohamed El Amine Boudjoghra Ivan Laptev Angela Dai 132 0 0 21 Apr 2025
ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis Andrea Rigo Luca Stornaiuolo Mauro Martino Bruno Lepri N. Sebe 85 0 0 18 Apr 2025
LayoutCoT: Unleashing the Deep Reasoning Potential of Large Language Models for Layout Generation Hengyu Shi Junhao Su Huansheng Ning Xiaoming Wei Jialin Gao 3DV AI4TS LRM 103 0 0 15 Apr 2025
Relation-Rich Visual Document Generator for Visual Information Extraction Zi-Han Jiang Chien-Wei Lin Wei-Hua Li Hsuan-Tung Liu Yi-Ren Yeh Chu-Song Chen 71 0 0 14 Apr 2025
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment Jiayang Sun Hongru Wang Jie Cao Huaibo Huang Ran He DiffM 114 0 0 10 Apr 2025
POEM: Precise Object-level Editing via MLLM control Marco Schouten Mehmet Onurcan Kaya Serge Belongie Dim P. Papadopoulos DiffM 103 0 0 10 Apr 2025
Storybooth: Training-free Multi-Subject Consistency for Improved Visual Storytelling Jaskirat Singh Junshen Kevin Chen Jonas Kohler Michael Cohen DiffM VGen 86 1 0 08 Apr 2025
$A$^\text{T}$A: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting$ A $^\text{T}$ A: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting Yizhe Tang Zhimin Sun Yuzhen Du Ran Yi Guangben Lu T. Hu Luying Li Lizhuang Ma Fangyuan Zou DiffM 70 0 0 02 Apr 2025
RelTriple: Learning Plausible Indoor Layouts by Integrating Relationship Triples into the Diffusion Process Kaifan Sun Bingchen Yang Peter Wonka Jun Xiao Haiyong Jiang 126 0 0 26 Mar 2025
LayerCraft: Enhancing Text-to-Image Generation with CoT Reasoning and Layered Object Integration Yuyao Zhang Jinghao Li Yu-Wing Tai DiffM 159 2 0 25 Mar 2025
From Fragment to One Piece: A Survey on AI-Driven Graphic Design Xingxing Zou Wen Zhang Nanxuan Zhao 141 0 0 24 Mar 2025
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse Zhenyu Pan Han Liu OffRL LRM 139 7 0 24 Mar 2025
Global-Local Tree Search in VLMs for 3D Indoor Scene Generation Wei Deng Mengshi Qi Huadong Ma 3DV 93 1 0 24 Mar 2025
Decorum: A Language-Based Approach For Style-Conditioned Synthesis of Indoor 3D Scenes Kelly O. Marshall Omid Poursaeed Sergiu Oprea Amit Kumar Anushrut Jignasu Chinmay Hegde Yilei Li Rakesh Ranjan 3DV 104 0 0 23 Mar 2025
HSM: Hierarchical Scene Motifs for Multi-Scale Indoor Scene Generation Hou In Derek Pun Hou In Ivan Tam Austin T. Wang Xiaoliang Huo Angel X. Chang Manolis Savva 3DV 103 1 0 21 Mar 2025
VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness SeungJu Cha Kwanyoung Lee Ye-Chan Kim Hyunwoo Oh Dong-Jin Kim 73 0 0 20 Mar 2025
EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining Boshen Xu Yuting Mei Xinbi Liu Sipeng Zheng Qin Jin VLM MDE 108 0 0 19 Mar 2025
ShapeShift: Towards Text-to-Shape Arrangement Synthesis with Content-Aware Geometric Constraints Vihaan Misra Peter Schaldenbrand Jean Oh DiffM 97 1 0 18 Mar 2025
PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models Runze He Bo Cheng Yuhang Ma Qingxiang Jia Shanyuan Liu Ao Ma Xiaoyu Wu Liebucha Wu Dawei Leng Yuhui Yin DiffM VLM 185 0 0 13 Mar 2025
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing Rongyao Fang Chengqi Duan Kun Wang Linjiang Huang Hao Li ... Xingyu Zeng R. Zhao Jifeng Dai Xihui Liu Hongsheng Li MLLM ReLM LRM 165 23 0 13 Mar 2025
Out-of-Distribution Radar Detection in Compound Clutter and Thermal Noise through Variational Autoencoders Y A Rouzoumka E Terreaux C. Morisseau J. Ovarlez C. Ren 108 2 0 06 Mar 2025
StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts Zhaoxing Gan Mengtian Li Ruhua Chen Zhongxia Ji Sichen Guo Huanling Hu Guangnan Ye Zuo Hu DiffM VGen 102 0 0 04 Mar 2025
Bayesian Optimization for Controlled Image Editing via LLMs Chengkun Cai Haoliang Liu Xu Zhao Zhongyu Jiang Tianfang Zhang Zongkai Wu Lei Li Lei Li Lei Li BDL OffRL 174 2 0 25 Feb 2025
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation Yifan Pu Yiming Zhao Zhicong Tang Ruihong Yin Haoxing Ye ... Ji Li Xiu Li Zheng Lian Gao Huang Baining Guo DiffM 127 5 0 25 Feb 2025
WorldCraft: Photo-Realistic 3D World Creation and Customization via LLM Agents Xinhang Liu Chi-Keung Tang Yu-Wing Tai VGen 212 1 0 21 Feb 2025
FlairGPT: Repurposing LLMs for Interior Designs Gabrielle Littlefair Niladri Shekhar Dutt Niloy J. Mitra 3DV 91 4 0 08 Jan 2025
Rare-to-Frequent: Unlocking Compositional Generation Power of Diffusion Models on Rare Concepts with LLM Guidance Dongmin Park Sebin Kim Taehong Moon Minkyu Kim Kangwook Lee Jaewoong Cho DiffM CoGe 117 5 0 08 Jan 2025
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data Yuanpeng Tu Xi Chen Ser-Nam Lim Hengshuang Zhao 186 1 0 03 Jan 2025
SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph Generation Hang Zhang Zhuoling Li Jun Liu LRM 176 1 0 15 Dec 2024
Type-R: Automatically Retouching Typos for Text-to-Image Generation Wataru Shimoda Naoto Inoue Daichi Haraguchi Hayato Mitani S. Uchida Kota Yamaguchi DiffM 221 0 0 27 Nov 2024
Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models Ronghuan Wu Wanchao Su Jing Liao DiffM 130 4 0 25 Nov 2024
VLN-Game: Vision-Language Equilibrium Search for Zero-Shot Semantic Navigation Bangguo Yu Yuzhen Liu Lei Han Hamidreza Kasaei Tingguang Li M. Cao LM&Ro 184 3 0 18 Nov 2024
GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts Junwen He Yifan Wang Lijun Wang Huchuan Lu Jun-Yan He Chong Li Hanyuan Chen Jin-Peng Lan Bin Luo Yifeng Geng 117 1 0 18 Nov 2024