v1v2 (latest)

LayoutGPT: Compositional Visual Planning and Generation with Large Language Models

24 May 2023

Papers citing "LayoutGPT: Compositional Visual Planning and Generation with Large Language Models"

50 / 146 papers shown

Title
Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting Yian Wang Xiaowen Qiu Jiageng Liu Zhehuan Chen Jiting Cai Yufei Wang Tsun-Hsuan Wang Zhou Xian Chuang Gan VGen AI4CE 108 7 0 14 Nov 2024
Evaluating the Generation of Spatial Relations in Text and Image Generative Models Shang Hong Sim Clarence Lee A. Tan Cheston Tan EGVM 49 3 0 12 Nov 2024
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement Zhennan Chen Yajie Li Haofan Wang Zheyu Chen Zhengkai Jiang Jun Yu Li Qian Wang Jian Yang Ying Tai DiffM 108 9 0 10 Nov 2024
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! Arash Marioriyad Mohammadali Banayeeanzade Reza Abbasi M. Rohban M. Baghshah DiffM 151 3 0 28 Oct 2024
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation Phillip Y. Lee Taehoon Yoon Minhyuk Sung 138 7 1 27 Oct 2024
SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects Jiayi Liu Denys Iliash Angel X. Chang Manolis Savva Ali Mahdavi-Amiri 163 13 0 21 Oct 2024
GRS: Generating Robotic Simulation Tasks from Real-World Images Alex Zook Fan-Yun Sun Josef Spjut Valts Blukis Stan Birchfield Jonathan Tremblay 101 4 0 20 Oct 2024
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective Xiangru Zhu Penglei Sun Yaoxian Song Yanghua Xiao Zhixu Li Chengyu Wang Jun Huang Bei Yang Xiaoxiao Xu EGVM 514 2 0 14 Oct 2024
Boosting Few-Shot Detection with Large Language Models and Layout-to-Image Synthesis Ahmed Abdullah Nikolas Ebert Oliver Wasenmüller ObjD 60 1 0 09 Oct 2024
PANav: Toward Privacy-Aware Robot Navigation via Vision-Language Models Bangguo Yu Hamidreza Kasaei Ming Cao 67 0 0 05 Oct 2024
EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing Kaizhi Zheng Xiaotong Chen Xuehai He Jing Gu Linjie Li Zhengyuan Yang Kevin Qinghong Lin Jianfeng Wang Lijuan Wang Xin Eric Wang KELM DiffM 97 0 0 03 Oct 2024
DreamStruct: Understanding Slides and User Interfaces via Synthetic Data Generation Yi-Hao Peng Faria Huq Yue Jiang Jason Wu Amanda Li Jeffrey P. Bigham Amy Pavel DiffM 84 5 0 30 Sep 2024
DeBaRA: Denoising-Based 3D Room Arrangement Generation Léopold Maillard Nicolas Sereyjol-Garros Tom Durand Maks Ovsjanikov DiffM 3DV 92 5 0 26 Sep 2024
GroundingBooth: Grounding Text-to-Image Customization Zhexiao Xiong Wei Xiong Jing Shi He Zhang Yizhi Song Nathan Jacobs DiffM 158 9 0 13 Sep 2024
Prim2Room: Layout-Controllable Room Mesh Generation from Primitives Chengzeng Feng Jiacheng Wei Cheng Chen Yang Li Pan Ji Fayao Liu Hongdong Li Guosheng Lin 85 1 0 09 Sep 2024
Towards General Industrial Intelligence: A Survey on IIoT-Enhanced Continual Large Models Jiao Chen Jiayi He Fangfang Chen Zuohong Lv Jianhua Tang Weihua Li Zuozhu Liu Howard H. Yang Guangjie Han AI4CE 82 1 0 02 Sep 2024
Compositional 3D-aware Video Generation with LLM Director Hanxin Zhu Tianyu He Anni Tang Junliang Guo Zhibo Chen Jiang Bian DiffM VGen 108 7 0 31 Aug 2024
Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation Abdelrahman Eldesokey Peter Wonka DiffM 127 4 0 27 Aug 2024
Draw Like an Artist: Complex Scene Generation with Diffusion Model via Composition, Painting, and Retouching Minghao Liu Le Zhang Yingjie Tian Xiaochao Qu Luoqi Liu Ting Liu DiffM CoGe 69 4 0 25 Aug 2024
Connecting Dreams with Visual Brainstorming Instruction Yasheng Sun Bohan Li Mingchen Zhuge Deng-Ping Fan Salman Khan Fahad Shahbaz Khan Hideki Koike DiffM 64 0 0 14 Aug 2024
REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models Agneet Chatterjee Yiran Luo Tejas Gokhale Yezhou Yang Chitta Baral LRM 99 5 0 05 Aug 2024
SceneMotifCoder: Example-driven Visual Program Learning for Generating 3D Object Arrangements Hou In Ivan Tam Hou In Derek Pun Austin T. Wang Angel X. Chang Manolis Savva 133 11 0 05 Aug 2024
SceneTeller: Language-to-3D Scene Generation Basak Melis Öcal Maxim Tatarchenko Sezer Karaoglu Theo Gevers 92 9 0 30 Jul 2024
The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation Yi Yao Chan-Feng Hsu Jhe-Hao Lin Hongxia Xie Terence Lin Yi-Ning Huang Hong-Han Shuai Wen-Huang Cheng DiffM 93 4 0 17 Jul 2024
GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing Zhenyu Wang Aoxue Li Zhenguo Li Xihui Liu MLLM DiffM 132 40 0 08 Jul 2024
Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis Qi Sun Hang Zhou Wengang Zhou Li Li Houqiang Li 3DPC 3DV 96 7 0 07 Jul 2024
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs Qiucheng Wu Handong Zhao Michael Stephen Saxon T. Bui William Yang Wang Yang Zhang Shiyu Chang CoGe 88 7 0 02 Jul 2024
MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis Dewei Zhou Yuchen Li Fan Ma Zongxin Yang Yue Yang 169 11 0 02 Jul 2024
HouseCrafter: Lifting Floorplans to 3D Scenes with 2D Diffusion Model Hieu T. Nguyen Yiwen Chen Vikram S. Voleti Varun Jampani Huaizu Jiang 87 1 0 28 Jun 2024
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language Yicheng Chen Xiangtai Li Yining Li Yanhong Zeng Jianzong Wu Xiangyu Zhao Kai Chen VLM DiffM 160 3 0 28 Jun 2024
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models Bingqi Ma Zhuofan Zong Guanglu Song Hongsheng Li Yu Liu 79 23 0 17 Jun 2024
Make It Count: Text-to-Image Generation with an Accurate Number of Objects Lital Binyamin Yoad Tewel Hilit Segev Eran Hirsch Royi Rassin Gal Chechik 93 15 0 14 Jun 2024
DocSynthv2: A Practical Autoregressive Modeling for Document Generation Sanket Biswas R. Jain Vlad I. Morariu Jiuxiang Gu Puneet Mathur Curtis Wigington Tong Sun Josep Lladós 71 1 0 12 Jun 2024
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction Zhen Xing Qi Dai Zejia Weng Zuxuan Wu Yu-Gang Jiang VGen 132 14 0 10 Jun 2024
CityCraft: A Real Crafter for 3D City Generation Jie Deng Wenhao Chai Junsheng Huang Zhonghan Zhao Qixuan Huang ... Shengyu Hao Wenhao Hu Lei Li X. Li Gaoang Wang 87 13 0 07 Jun 2024
Coherent Zero-Shot Visual Instruction Generation Quynh Phung Songwei Ge Jia-Bin Huang 79 2 0 06 Jun 2024
ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization L. Eyring Shyamgopal Karthik Karsten Roth Alexey Dosovitskiy Zeynep Akata 164 28 0 06 Jun 2024
LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model Yixuan Yang Junru Lu Zixiang Zhao Zhen Luo James J.Q. Yu Victor Sanchez Feng Zheng 3DV 89 7 0 06 Jun 2024
Mixed Diffusion for 3D Indoor Scene Synthesis Siyi Hu Diego Martin Arroyo Stephanie Debats Fabian Manhardt Luca Carlone Federico Tombari DiffM 81 6 0 31 May 2024
RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection Fangyi Chen Han Zhang Zhantao Yang Hao Chen Kai Hu Marios Savvides ObjD VLM 81 5 0 30 May 2024
Multi-modal Generation via Cross-Modal In-Context Learning Amandeep Kumar Muzammal Naseer Sanath Narayan Rao Muhammad Anwer Salman Khan Hisham Cholakkal MLLM 85 0 0 28 May 2024
Off-the-shelf ChatGPT is a Good Few-shot Human Motion Predictor Haoxuan Qu Zhaoyang He Zeyu Hu Yujun Cai Jun Liu 82 1 0 24 May 2024
LOC-ZSON: Language-driven Object-Centric Zero-Shot Object Retrieval and Navigation Tianrui Guan Yurou Yang Harry Cheng Muyuan Lin Richard Kim R. Madhivanan Arnie Sen Dinesh Manocha LM&Ro 92 11 0 08 May 2024
Transcrib3D: 3D Referring Expression Resolution through Large Language Models Jiading Fang Xiangshan Tan Shengjie Lin Igor Vasiljevic Vitor Campagnolo Guizilini Hongyuan Mei Rares Andrei Ambrus Gregory Shakhnarovich Matthew R. Walter LM&Ro 72 4 0 30 Apr 2024
Graphic Design with Large Multimodal Model Yutao Cheng Zhao Zhang Maoke Yang Hui Nie Chunyuan Li Xinglong Wu Jie Shao 98 15 0 22 Apr 2024
ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis Aashish Anantha Ramakrishnan Sharon X. Huang Dongwon Lee 90 0 0 15 Apr 2024
ClickDiffusion: Harnessing LLMs for Interactive Precise Image Editing Alec Helbling Seongmin Lee Polo Chau DiffM 61 1 0 05 Apr 2024
Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) Michael Stephen Saxon Fatima Jahara Mahsa Khoshnoodi Yujie Lu Aditya Sharma William Y. Wang EGVM 81 10 0 05 Apr 2024
I-Design: Personalized LLM Interior Designer Ata cCelen Guo Han Konrad Schindler Luc Van Gool Iro Armeni Anton Obukhov Xi Wang 3DV 109 23 0 03 Apr 2024
Getting it Right: Improving Spatial Consistency in Text-to-Image Models Agneet Chatterjee Gabriela Ben-Melech Stan Estelle Aflalo Sayak Paul Dhruba Ghosh ... Ludwig Schmidt Hanna Hajishirzi Vasudev Lal Chitta Baral Yezhou Yang EGVM VLM 116 18 0 01 Apr 2024