CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers

28 April 2022

Ming Ding

Papers citing "CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers"

50 / 238 papers shown

Title
A Survey of Generative AI for Intelligent Transportation Systems Huan Yan Yong Li 23 8 0 13 Dec 2023
AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for Text-Based Continuity-Sensitive Image Editing Zhiyuan Ma Guoli Jia Bowen Zhou DiffM 49 8 0 13 Dec 2023
ToViLaG: Your Visual-Language Generative Model is Also An Evildoer Xinpeng Wang Xiaoyuan Yi Han Jiang Shanlin Zhou Zhihua Wei Xing Xie 30 13 0 13 Dec 2023
GenDet: Towards Good Generalizations for AI-Generated Image Detection Mingjian Zhu Hanting Chen Mouxiao Huang Wei Li Hailin Hu Jie Hu Yunhe Wang 29 16 0 12 Dec 2023
iDesigner: A High-Resolution and Complex-Prompt Following Text-to-Image Diffusion Model for Interior Design Ruyi Gan Xiaojun Wu Junyu Lu Yuanhe Tian Di Zhang ... Renliang Sun Chang Liu Jiaxing Zhang Pingjian Zhang Yan Song 80 4 0 07 Dec 2023
MEVG: Multi-event Video Generation with Text-to-Video Models Gyeongrok Oh Jaehwan Jeong Sieun Kim Wonmin Byeon Jinkyu Kim Sungwoong Kim Sangpil Kim VGen DiffM 35 20 0 07 Dec 2023
TokenCompose: Text-to-Image Diffusion with Token-level Supervision Zirui Wang Zhizhou Sha Zheng Ding Yilin Wang Zhuowen Tu DiffM 27 20 0 06 Dec 2023
MMM: Generative Masked Motion Model Ekkasit Pinyoanuntapong Pu Wang Minwoo Lee Cheng Chen DiffM VGen 37 45 0 06 Dec 2023
F3-Pruning: A Training-Free and Generalized Pruning Strategy towards Faster and Finer Text-to-Video Synthesis Sitong Su Jianzhi Liu Lianli Gao Jingkuan Song DiffM VGen 22 4 0 06 Dec 2023
FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction Shuangquan Feng Junhua Ma Virginia R. de Sa EGVM 23 0 0 05 Dec 2023
MagicStick: Controllable Video Editing via Control Handle Transformations Yue Ma Xiaodong Cun Yin-Yin He Chenyang Qi Xintao Wang Ying Shan Xiu Li Qifeng Chen VGen 14 24 0 05 Dec 2023
Stable Diffusion Exposed: Gender Bias from Prompt to Image Yankun Wu Yuta Nakashima Noa Garcia 28 16 0 05 Dec 2023
DiffiT: Diffusion Vision Transformers for Image Generation Ali Hatamizadeh Jiaming Song Guilin Liu Jan Kautz Arash Vahdat 34 66 0 04 Dec 2023
VideoBooth: Diffusion-based Video Generation with Image Prompts Yuming Jiang Tianxing Wu Shuai Yang Chenyang Si Dahua Lin Yu Qiao Chen Change Loy Ziwei Liu DiffM VGen 40 65 0 01 Dec 2023
StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter Gongye Liu Menghan Xia Yong Zhang Haoxin Chen Jinbo Xing Xintao Wang Yujiu Yang Ying Shan DiffM VGen 139 0 0 01 Dec 2023
VBench: Comprehensive Benchmark Suite for Video Generative Models Ziqi Huang Yinan He Jiashuo Yu Fan Zhang Chenyang Si ... Xinyuan Chen Limin Wang Dahua Lin Yu Qiao Ziwei Liu VGen 71 349 0 29 Nov 2023
Unlocking Spatial Comprehension in Text-to-Image Diffusion Models Mohammad Mahdi Derakhshani Menglin Xia Harkirat Singh Behl Cees G. M. Snoek Victor Rühle 19 2 0 28 Nov 2023
MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video Generation Sitong Su Litao Guo Lianli Gao Hengtao Shen Jingkuan Song VGen 26 4 0 28 Nov 2023
Text-Driven Image Editing via Learnable Regions Yuanze Lin Yi-Wen Chen Yi-Hsuan Tsai Lu Jiang Ming-Hsuan Yang DiffM 31 16 0 28 Nov 2023
DreamCreature: Crafting Photorealistic Virtual Creatures from Imagination KamWoh Ng Xiatian Zhu Yi-Zhe Song Tao Xiang DiffM 13 6 0 27 Nov 2023
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model Kai Yang Jian Tao Jiafei Lyu Chunjiang Ge Jiaxin Chen Qimai Li Weihan Shen Xiaolong Zhu Xiu Li EGVM 23 89 0 22 Nov 2023
The Challenges of Image Generation Models in Generating Multi-Component Images Tham Yik Foong Shashank Kotyan Poyuan Mao Danilo Vasconcellos Vargas EGVM 52 1 0 22 Nov 2023
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline V.Ya. Arkhipkin Zein Shaheen Viacheslav Vasilev E. Dakhova Andrey Kuznetsov Denis Dimitrov DiffM VGen 26 5 0 22 Nov 2023
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning Jiaxi Lv Yi Huang Mingfu Yan Jiancheng Huang Jianzhuang Liu Yifan Liu Yafei Wen Xiaoxin Chen Shifeng Chen VGen DiffM 30 23 0 21 Nov 2023
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning Rohit Girdhar Mannat Singh Andrew Brown Quentin Duval S. Azadi Sai Saketh Rambhatla Akbar Shah Xi Yin Devi Parikh Ishan Misra DiffM VGen 46 190 0 17 Nov 2023
A Survey of AI Text-to-Image and AI Text-to-Video Generators Aditi Singh 24 19 0 10 Nov 2023
Holistic Evaluation of Text-To-Image Models Tony Lee Michihiro Yasunaga Chenlin Meng Yifan Mai Joon Sung Park ... Jun-Yan Zhu Fei-Fei Li Jiajun Wu Stefano Ermon Percy Liang 149 126 0 07 Nov 2023
Cross-Image Attention for Zero-Shot Appearance Transfer Yuval Alaluf Daniel Garibi Or Patashnik Hadar Averbuch-Elor Daniel Cohen-Or DiffM 40 69 0 06 Nov 2023
A Survey on Video Diffusion Models Zhen Xing Qijun Feng Haoran Chen Qi Dai Hang-Rui Hu Hang Xu Zuxuan Wu Yu-Gang Jiang EGVM VGen 57 116 0 16 Oct 2023
LOVECon: Text-driven Training-Free Long Video Editing with ControlNet Zhenyi Liao Zhijie Deng DiffM 38 7 0 15 Oct 2023
DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model Xiaofan Li Yifu Zhang Xiaoqing Ye VGen 70 71 0 11 Oct 2023
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models Yin-Yin He Shaoshu Yang Haoxin Chen Xiaodong Cun Menghan Xia Yong Zhang Xintao Wang Ran He Qifeng Chen Ying Shan 34 71 0 11 Oct 2023
Improving Compositional Text-to-image Generation with Large Vision-Language Models Song Wen Guian Fang Renrui Zhang Peng Gao Hao Dong Dimitris N. Metaxas 25 17 0 10 Oct 2023
Perceptual Artifacts Localization for Image Synthesis Tasks Lingzhi Zhang Zhengjie Xu Connelly Barnes Yuqian Zhou Qing Liu He Zhang Sohrab Amirghodsi Zhe-nan Lin Eli Shechtman Jianbo Shi DiffM 32 21 0 09 Oct 2023
AutomaTikZ: Text-Guided Synthesis of Scientific Vector Graphics with TikZ Jonas Belouadi Anne Lauscher Steffen Eger 21 27 0 30 Sep 2023
DreamLLM: Synergistic Multimodal Comprehension and Creation Runpei Dong Chunrui Han Yuang Peng Zekun Qi Zheng Ge ... Hao-Ran Wei Xiangwen Kong Xiangyu Zhang Kaisheng Ma Li Yi MLLM 39 173 0 20 Sep 2023
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation Xingchao Liu Xiwen Zhang Jianzhu Ma Jian Peng Qiang Liu 93 194 0 12 Sep 2023
ITI-GEN: Inclusive Text-to-Image Generation Cheng Zhang Xuanbai Chen Siqi Chai Chen Henry Wu Dmitry Lagun Thabo Beeler Fernando de la Torre VLM 32 52 0 11 Sep 2023
GPT Can Solve Mathematical Problems Without a Calculator Z. Yang Ming Ding Qingsong Lv Zhihuan Jiang Zehai He Yuyi Guo Jinfeng Bai Jie Tang RALM LRM 36 52 0 06 Sep 2023
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model Fengxiang Bie Yibo Yang Zhongzhu Zhou Adam Ghanem Minjia Zhang ... Pareesa Ameneh Golnari David A. Clifton Yuxiong He Dacheng Tao Shuaiwen Leon Song EGVM 33 18 0 02 Sep 2023
Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images Cuican Yu Guansong Lu Yihan Zeng Jian Sun Xiaodan Liang Huibin Li Zongben Xu Songcen Xu Wei Zhang Hang Xu 44 14 0 31 Aug 2023
AI-Generated Content (AIGC) for Various Data Modalities: A Survey Lin Geng Foo Hossein Rahmani Xiaozhong Liu 78 31 0 27 Aug 2023
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages Jinyi Hu Yuan Yao Chong Wang Shanonan Wang Yinxu Pan ... Yankai Lin Jiao Xue Dahai Li Zhiyuan Liu Maosong Sun MLLM VLM 33 48 0 23 Aug 2023
Backdooring Textual Inversion for Concept Censorship Yutong Wu Jiehan Zhang Florian Kerschbaum Tianwei Zhang DiffM 32 7 0 21 Aug 2023
AltDiffusion: A Multilingual Text-to-Image Diffusion Model Fulong Ye Guangyi Liu Xinya Wu Ledell Yu Wu VLM 39 25 0 19 Aug 2023
SimDA: Simple Diffusion Adapter for Efficient Video Generation Zhen Xing Qi Dai Hang-Rui Hu Zuxuan Wu Yu-Gang Jiang VGen DiffM 35 81 0 18 Aug 2023
Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment Qi Chen Chaorui Deng Zixiong Huang Bowen Zhang Mingkui Tan Qi Wu EGVM 19 0 0 16 Aug 2023
Story Visualization by Online Text Augmentation with Context Memory Daechul Ahn Daneul Kim Gwangmo Song Seung Wook Kim Honglak Lee Dongyeop Kang Jonghyun Choi DiffM 19 4 0 15 Aug 2023
MarkovGen: Structured Prediction for Efficient Text-to-Image Generation Sadeep Jayasumana Daniel Glasner Srikumar Ramalingam Andreas Veit Ayan Chakrabarti Surinder Kumar DiffM 24 0 0 14 Aug 2023
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models Hu Ye Jun Zhang Siyi Liu Xiao Han Wei Yang DiffM 21 736 0 13 Aug 2023