Title
Classifier-Free Guidance inside the Attraction Basin May Cause Memorization Anubhav Jain Yuya Kobayashi Takashi Shibuya Yuhta Takida N. Memon Julian Togelius Yuki Mitsufuji DiffM 211 2 0 23 Nov 2024
Bag of Design Choices for Inference of High-Resolution Masked Generative Transformer Shitong Shao Zikai Zhou Tian Ye Lichen Bai Zhiqiang Xu Bo Han DiffM 125 0 0 16 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... Hao Fei Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 203 14 0 08 Nov 2024
Robust Watermarking Using Generative Priors Against Image Editing: From Benchmarking to Advances Shilin Lu Zihan Zhou Jiayou Lu Yuanzhi Zhu A. Kong WIGM 147 15 0 24 Oct 2024
Scaling up Masked Diffusion Models on Text Shen Nie Fengqi Zhu Chao Du Tianyu Pang Qian Liu Guangtao Zeng Min Lin Chongxuan Li AI4CE 220 30 0 24 Oct 2024
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities Shaozhe Hao Xuantong Liu Xianbiao Qi Shihao Zhao Bojia Zi Rong Xiao Kai Han Kwan-Yee K. Wong 200 3 0 18 Oct 2024
Focused ReAct: Improving ReAct through Reiterate and Early Stop Shuoqiu Li Han Xu Haipeng Chen ReLM LRM 106 7 0 14 Oct 2024
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models Xiaoxiao He Ligong Han Quan Dao Song Wen Minhao Bai ... Hongdong Li Junzhou Huang Faez Ahmed Akash Srivastava Dimitris Metaxas DiffM SyDa 159 5 0 10 Oct 2024
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis Jinbin Bai Tian-Chun Ye Wei Chow Enxin Song Qing-Guo Chen Hefei Ling Zhen Dong Lei Zhu 166 19 0 10 Oct 2024
LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning Zhe Li Weihao Yuan Yisheng He Lingteng Qiu Shenhao Zhu Xiaodong Gu Weichao Shen Yuan Dong Zilong Dong Laurence T. Yang 103 10 0 09 Oct 2024
Think While You Generate: Discrete Diffusion with Planned Denoising Sulin Liu Juno Nam Andrew Campbell Hannes Stärk Yilun Xu Tommi Jaakkola Rafael Gómez-Bombarelli DiffM 159 12 0 08 Oct 2024
Loong: Generating Minute-level Long Videos with Autoregressive Language Models Yuqing Wang Tianwei Xiong Daquan Zhou Zhijie Lin Yang Zhao Bingyi Kang Jiashi Feng Xihui Liu VGen 169 35 0 03 Oct 2024
FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting Liyao Jiang Negar Hassanpour Mohammad Salameh Mohan Sai Singamsetti Fengyu Sun Wei Lu Di Niu DiffM 158 2 0 21 Aug 2024
D2Styler: Advancing Arbitrary Style Transfer with Discrete Diffusion Methods Onkar Susladkar Gayatri Deshmukh Sparsh Mittal Parth Shastri DiffM 97 3 0 07 Aug 2024
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining Dongyang Liu Shitian Zhao Le Zhuo Weifeng Lin Ping Luo Xinyue Li Qi Qin Yu Qiao Hongsheng Li Peng Gao MLLM 168 59 0 05 Aug 2024
Exploring the Potentials and Challenges of Deep Generative Models in Product Design Conception Phillip Mueller Lars Mikelsons AI4CE 131 3 0 15 Jul 2024
MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis Dewei Zhou Yuchen Li Fan Ma Zongxin Yang Yue Yang 182 11 0 02 Jul 2024
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 209 39 0 24 Jun 2024
Evaluating Numerical Reasoning in Text-to-Image Models Ivana Kajić Olivia Wiles Isabela Albuquerque Matthias Bauer Su Wang Jordi Pont-Tuset Aida Nematzadeh EGVM ReLM 229 2 0 20 Jun 2024
Autoregressive Image Generation without Vector Quantization Tianhong Li Yonglong Tian He Li Mingyang Deng Kaiming He DiffM 181 238 0 17 Jun 2024
An Image is Worth 32 Tokens for Reconstruction and Generation Qihang Yu Mark Weber XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen VLM ViT 180 104 0 11 Jun 2024
PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction Shangyu Chen Zizheng Pan Jianfei Cai Dinh Q. Phung 93 1 0 09 Jun 2024
MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training Kengo Uchida Takashi Shibuya Yuhta Takida Naoki Murata Shusuke Takahashi Shusuke Takahashi Yuki Mitsufuji VGen 157 5 0 04 Jun 2024
MEGA: Masked Generative Autoencoder for Human Mesh Recovery Guénolé Fiche Simon Leglaive Xavier Alameda-Pineda Francesc Moreno-Noguer 3DH 139 1 0 29 May 2024
Glauber Generative Model: Discrete Diffusion Models via Binary Classification Harshit Varma Dheeraj M. Nagaraj Karthikeyan Shanmugam VLM 231 3 0 27 May 2024
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance Jiannan Huang Jun Hao Liew Hanshu Yan Yuyang Yin Yao Zhao Yunchao Wei Yunchao Wei DiffM 209 7 0 27 May 2024
DOCCI: Descriptions of Connected and Contrasting Images Yasumasa Onoe Sunayana Rane Zachary Berger Yonatan Bitton Jaemin Cho ... Zarana Parekh Jordi Pont-Tuset Garrett Tanzer Su Wang Jason Baldridge 119 63 0 30 Apr 2024
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings Olivia Wiles Chuhan Zhang Isabela Albuquerque Ivana Kajić Su Wang ... Jordi Pont-Tuset Aida Nematzadeh Anant Nawalgaria Jordi Pont-Tuset Aida Nematzadeh EGVM 268 22 0 25 Apr 2024
σ-GPTs: A New Approach to Autoregressive Models Arnaud Pannatier Evann Courdier Franccois Fleuret AI4TS 107 10 0 15 Apr 2024
InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization Xiefan Guo Jinlin Liu Miaomiao Cui Jiankai Li Hongyu Yang Di Huang 105 38 0 06 Apr 2024
Aligning Diffusion Models by Optimizing Human Utility Shufan Li Konstantinos Kallidromitis Akash Gokul Yusuke Kato Kazuki Kozuka 159 34 0 06 Apr 2024
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models Kangfu Mei Zhengzhong Tu M. Delbracio Hossein Talebi Vishal M. Patel P. Milanfar DiffM 98 13 0 01 Apr 2024
BAMM: Bidirectional Autoregressive Motion Model Ekkasit Pinyoanuntapong Muhammad Usama Saleem Pu Wang Minwoo Lee Srijan Das Chong Chen VGen 68 25 0 28 Mar 2024
Implicit Style-Content Separation using B-LoRA Yarden Frenkel Yael Vinker Ariel Shamir Daniel Cohen-Or MoMe OffRL 103 47 0 21 Mar 2024
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data Jialu Li Jaemin Cho Yi-Lin Sung Jaehong Yoon Mohit Bansal MoMe DiffM 103 9 0 11 Mar 2024
TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages Minsu Kim Jee-weon Jung Hyeongseop Rha Soumi Maiti Siddhant Arora Xuankai Chang Shinji Watanabe Y. Ro 112 7 0 25 Feb 2024
Data-efficient Large Vision Models through Sequential Autoregression Jianyuan Guo Zhiwei Hao Chengcheng Wang Yehui Tang Han Wu Han Hu Kai Han Chang Xu VLM 110 10 0 07 Feb 2024
MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers Haoyu Ma Shahin Mahdizadehaghdam Bichen Wu Zhipeng Fan Yuchao Gu Wenliang Zhao Lior Shapira Xiaohui Xie DiffM VGen 76 4 0 19 Dec 2023
Style Aligned Image Generation via Shared Attention Amir Hertz Andrey Voynov Shlomi Fruchter Daniel Cohen-Or DiffM 80 135 0 04 Dec 2023
DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding Uy Dieu Tran Minh Luu P. Nguyen K. Nguyen Binh-Son Hua 102 1 0 02 Dec 2023
Paragraph-to-Image Generation with Information-Enriched Diffusion Model Weijia Wu Zhuang Li Yefei He Mike Zheng Shou Chunhua Shen Lele Cheng Yan Li Yan Li Di Zhang VLM 240 25 0 24 Nov 2023
MoVideo: Motion-Aware Video Generation with Diffusion Models Christos Sakaridis Yuchen Fan Kai Zhang Radu Timofte Luc Van Gool Rakesh Ranjan DiffM VGen 85 10 0 19 Nov 2023
InstrumentGen: Generating Sample-Based Musical Instruments From Text S. Nercessian Johannes Imort 68 2 0 07 Nov 2023
Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation Jaemin Cho Yushi Hu Roopal Garg Peter Anderson Ranjay Krishna Jason Baldridge Mohit Bansal Jordi Pont-Tuset Su Wang EGVM 93 81 0 27 Oct 2023
Online Detection of AI-Generated Images David C. Epstein Ishan Jain Oliver Wang Richard Y. Zhang 72 60 0 23 Oct 2023
GAIA-1: A Generative World Model for Autonomous Driving Masane Fuchi Lloyd Russell Hudson Yeo Zak Murez Hiroto Minami Alex Kendall Tomohiro Takagi Gianluca Corrado VGen 145 253 0 29 Sep 2023
Backdooring Textual Inversion for Concept Censorship Yutong Wu Jiehan Zhang Florian Kerschbaum Tianwei Zhang DiffM 100 7 0 21 Aug 2023
MarkovGen: Structured Prediction for Efficient Text-to-Image Generation Sadeep Jayasumana Daniel Glasner Srikumar Ramalingam Andreas Veit Ayan Chakrabarti Surinder Kumar DiffM 73 0 0 14 Aug 2023
Complexity Matters: Rethinking the Latent Space for Generative Modeling Tianyang Hu Fei Chen Hong Wang Jiawei Li Wei Cao Jiacheng Sun Hao Sun DiffM 131 10 0 17 Jul 2023
HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models Nataniel Ruiz Yuanzhen Li Varun Jampani Wei Wei Tingbo Hou Yael Pritch Neal Wadhwa Michael Rubinstein Kfir Aberman DiffM 114 183 0 13 Jul 2023