Title
TextMaster: Universal Controllable Text Edit Aoqiang Wang Yufei Guo Zhenyu Yan Wenxiang Shang Ran Lin Zhao Zhang DiffM 28 2 0 13 Oct 2024
AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior Guoqiang Liang Qingnan Fan Bingtao Fu Jinwei Chen Hong Gu Lin Wang DiffM 34 0 0 13 Oct 2024
SceneCraft: Layout-Guided 3D Scene Generation Xiuyu Yang Yunze Man Jun-Kun Chen Yu-Xiong Wang 3DV 85 8 0 11 Oct 2024
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models Rui Zhao Hangjie Yuan Yujie Wei Shiwei Zhang Yuchao Gu ... Xiang Wang Zhangjie Wu Junhao Zhang Yingya Zhang Mike Zheng Shou DiffM VLM 55 4 0 09 Oct 2024
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation Xinchen Zhang Ling Yang Ge Li Yaqi Cai Jiake Xie Yong Tang Yujiu Yang Mengdi Wang Bin Cui EGVM CoGe 44 5 0 09 Oct 2024
CAR: Controllable Autoregressive Modeling for Visual Generation Ziyu Yao Jialin Li Yifeng Zhou Yong Liu Xi Jiang Chengjie Wang Feng Zheng Yuexian Zou Lei Li DiffM 37 13 0 07 Oct 2024
ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation Rinon Gal Adi Haviv Yuval Alaluf Amit H. Bermano Daniel Cohen-Or Gal Chechik DiffM 31 3 0 02 Oct 2024
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation Junlin Han Jianyuan Wang Andrea Vedaldi Philip Torr Filippos Kokkinos 28 4 0 01 Oct 2024
FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction Runze He Kai Ma Linjiang Huang Shaofei Huang Jialin Gao Xiaoming Wei Jiao Dai Jizhong Han Si Liu DiffM 52 7 0 26 Sep 2024
Pixel-Space Post-Training of Latent Diffusion Models Christina Zhang Simran Motwani Matthew Yu Ji Hou Felix Juefei-Xu Sam S. Tsai Peter Vajda Zijian He Jialiang Wang 31 2 0 26 Sep 2024
Imagine yourself: Tuning-Free Personalized Image Generation Zecheng He Bo Sun Felix Juefei-Xu Haoyu Ma Ankit Ramchandani ... Ning Zhang Peizhao Zhang Roshan Sumbaly Peter Vajda Animesh Sinha DiffM 37 16 0 20 Sep 2024
Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs Yifan Wang David Stevens Pranay Shah Wenwen Jiang Miao Liu ... Boying Gong Daniel Lee Jiabo Hu Ning Zhang Bob Kamma 40 1 0 16 Sep 2024
FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process Yang Luo Y. Zhang Zhaofan Qiu Ting Yao Zhineng Chen Yu-Gang Jiang Tao Mei DiffM 43 4 0 11 Sep 2024
RoomDiffusion: A Specialized Diffusion Model in the Interior Design Industry Zhaowei Wang Ying Hao Hao Wei Qing Xiao Lulu Chen Yulong Li Yue Yang Tianyi Li DiffM 33 0 0 05 Sep 2024
DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing Xiaolong Wang Zhi-Qi Cheng Jue Wang Xiaojiang Peng DiffM 40 0 0 02 Sep 2024
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model Chunting Zhou Lili Yu Arun Babu Kushal Tirumala Michihiro Yasunaga Leonid Shamis Jacob Kahn Xuezhe Ma Luke Zettlemoyer Omer Levy DiffM 42 152 0 20 Aug 2024
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering Ruofan Liang Zan Gojcic Merlin Nimier-David David Acuna Nandita Vijaykumar Sanja Fidler Zian Wang DiffM 88 8 0 19 Aug 2024
Data Processing Techniques for Modern Multimodal Models Yinheng Li Han Ding Hang Chen VLM 36 0 0 27 Jul 2024
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget Vikash Sehwag Xianghao Kong Jingtao Li Michael Spranger Lingjuan Lyu DiffM 47 9 0 22 Jul 2024
Image Inpainting Models are Effective Tools for Instruction-guided Image Editing Xu Ju Junhao Zhuang Zhaoyang Zhang Hao Wang Qiang Xu Ying Shan DiffM 51 1 0 18 Jul 2024
MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis Wanggui He Siming Fu Mushui Liu Xierui Wang Wenyi Xiao ... Zhelun Yu Haoyuan Li Ziwei Huang Leilei Gan Hao Jiang DiffM 24 23 0 10 Jul 2024
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions Xuan Ju Yiming Gao Zhaoyang Zhang Ziyang Yuan Xintao Wang Ailing Zeng Yu Xiong Qiang Xu Ying Shan VGen 77 39 0 08 Jul 2024
JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation Yu Zeng Vishal M. Patel Haochen Wang Xun Huang Ting-Chun Wang Xuan Li Yogesh Balaji DiffM 32 18 0 08 Jul 2024
Meta 3D Gen Raphael Bensadoun Tom Monnier Yanir Kleiman Filippos Kokkinos Yawar Siddiqui ... Antoine Toisoul David Novotny Oran Gafni Natalia Neverova Andrea Vedaldi 52 1 0 02 Jul 2024
Meta 3D AssetGen: Text-to-Mesh Generation with High-Quality Geometry, Texture, and PBR Materials Yawar Siddiqui Tom Monnier Filippos Kokkinos Mahendra Kariya Yanir Kleiman ... Oran Gafni Natalia Neverova Andrea Vedaldi Roman Shapovalov David Novotny 67 29 0 02 Jul 2024
Meta 3D TextureGen: Fast and Consistent Texture Generation for 3D Objects Raphael Bensadoun Yanir Kleiman Idan Azuri Omri Harosh Andrea Vedaldi Natalia Neverova Oran Gafni 45 27 0 02 Jul 2024
Dataset Size Recovery from LoRA Weights Mohammad Salama Jonathan Kahana Eliahu Horwitz Yedid Hoshen 42 5 0 27 Jun 2024
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data William Berman A. Peysakhovich 39 4 0 26 Jun 2024
GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation Baiqi Li Zhiqiu Lin Deepak Pathak Jiayao Li Yixin Fei ... Tiffany Ling Xide Xia Pengchuan Zhang Graham Neubig Deva Ramanan EGVM 52 25 0 19 Jun 2024
LRM-Zero: Training Large Reconstruction Models with Synthesized Data Desai Xie Sai Bi Zhixin Shu Kai Zhang Zexiang Xu Yi Zhou Soren Pirk Arie E. Kaufman Xin Sun Hao Tan SyDa 56 14 0 13 Jun 2024
EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts Yucheng Han Rui Wang Chi Zhang Juntao Hu Pei Cheng Bin-Bin Fu Hanwang Zhang 75 6 0 13 Jun 2024
Diffusion Soup: Model Merging for Text-to-Image Diffusion Models Benjamin Biggs Arjun Seshadri Yang Zou Achin Jain Aditya Golatkar Yusheng Xie Alessandro Achille Ashwin Swaminathan Stefano Soatto MoMe DiffM 43 10 0 12 Jun 2024
Hierarchical Patch Diffusion Models for High-Resolution Video Generation Ivan Skorokhodov Willi Menapace Aliaksandr Siarohin Sergey Tulyakov VGen 48 10 0 12 Jun 2024
Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation Yuanhao Zhai Kevin Lin Zhengyuan Yang Linjie Li Jianfeng Wang Chung-Ching Lin David Doermann Junsong Yuan Lijuan Wang VGen DiffM 41 9 0 11 Jun 2024
Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image Stanislaw Szymanowicz Eldar Insafutdinov Chuanxia Zheng Dylan Campbell João F. Henriques Christian Rupprecht Andrea Vedaldi 3DGS 39 49 0 06 Jun 2024
Coherent Zero-Shot Visual Instruction Generation Quynh Phung Songwei Ge Jia-Bin Huang 57 2 0 06 Jun 2024
Dimba: Transformer-Mamba Diffusion Models Zhengcong Fei Mingyuan Fan Changqian Yu Debang Li Youqiang Zhang Junshi Huang Mamba 62 17 0 03 Jun 2024
CV-VAE: A Compatible Video VAE for Latent Generative Video Models Sijie Zhao Yong Zhang Xiaodong Cun Shaoshu Yang Muyao Niu Xiaoyu Li Wenbo Hu Ying Shan DiffM 61 23 0 30 May 2024
Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability Shenyuan Gao Jiazhi Yang Li Chen Kashyap Chitta Yihang Qiu Andreas Geiger Jun Zhang Hongyang Li 71 75 0 27 May 2024
Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models C. N. Vasconcelos Abdullah Rashwan Austin Waters Trevor Walker Keyang Xu Jimmy Yan ... Wenlei Zhou Kevin Swersky David J. Fleet Jason Baldridge Oliver Wang 46 3 0 27 May 2024
LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models Seyedmorteza Sadat Jakob Buhmann Derek Bradley Otmar Hilliges Romann M. Weber 51 9 0 23 May 2024
An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation Zhiyu Tan Mengping Yang Luozheng Qin Hao Yang Ye Qian Qiang-feng Zhou Cheng Zhang Hao Li 67 3 0 21 May 2024
Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices Nathaniel Cohen Vladimir Kulikov Matan Kleiner Inbar Huberman-Spiegelglas T. Michaeli VGen DiffM 30 15 0 20 May 2024
Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning Masane Fuchi Tomohiro Takagi DiffM VLM 53 14 0 12 May 2024
Imagine Flash: Accelerating Emu Diffusion Models with Backward Distillation Jonas Kohler Albert Pumarola Edgar Schönfeld A. Sanakoyeu Roshan Sumbaly Peter Vajda Ali K. Thabet 35 22 0 08 May 2024
Towards Geographic Inclusion in the Evaluation of Text-to-Image Models Melissa Hall Samuel J. Bell Candace Ross Adina Williams M. Drozdzal Adriana Romero Soriano EGVM 41 4 0 07 May 2024
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable Haozhe Liu Wentian Zhang Bing Li Bernard Ghanem Jürgen Schmidhuber DiffM WIGM AAML 36 1 0 01 May 2024
DreamCraft: Text-Guided Generation of Functional 3D Environments in Minecraft Sam Earle Filippos Kokkinos Yuhe Nie Julian Togelius Roberta Raileanu 37 8 0 23 Apr 2024
MeshLRM: Large Reconstruction Model for High-Quality Meshes Xinyue Wei Kai Zhang Sai Bi Hao Tan Fujun Luan Valentin Deschaintre Kalyan Sunkavalli Hao Su Zexiang Xu AI4CE 110 73 0 18 Apr 2024
Taming Latent Diffusion Model for Neural Radiance Field Inpainting C. Lin Changil Kim Jia-Bin Huang Qinbo Li Chih-Yao Ma Johannes Kopf Ming-Hsuan Yang Hung-Yu Tseng AI4CE DiffM 34 10 0 15 Apr 2024