Improving Text-to-Image Synthesis Using Contrastive Learning

6 July 2021

Hui Ye

Xiulong Yang

Martin Takáč

Rajshekhar Sunderraman

Shihao Ji

ArXiv PDF HTML

Papers citing "Improving Text-to-Image Synthesis Using Contrastive Learning"

28 / 28 papers shown

Title
HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation Hang Wang Zhi-Qi Cheng Chenhao Lin Chao Shen Lei Zhang DiffM 35 0 0 10 May 2025
Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation Amir Mohammad Izadi Seyed Mohsen Hosseini Soroush Vafaie Tabar Ali Abdollahi Armin Saghafian M. Baghshah EGVM 45 0 0 09 Mar 2025
Repairing Catastrophic-Neglect in Text-to-Image Diffusion Models via Attention-Guided Feature Enhancement Zhiyuan Chang Mingyang Li Junjie Wang Yi Liu Qing Wang Yang Liu DiffM 26 1 0 24 Jun 2024
HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances Supreeth Narasimhaswamy Uttaran Bhattacharya Xiang Chen Ishita Dasgupta Saayan Mitra Minh Hoai DiffM 26 24 0 04 Mar 2024
Contextualized Diffusion Models for Text-Guided Image and Video Generation Ling Yang Zhilong Zhang Zhaochen Yu Jingwei Liu Minkai Xu Stefano Ermon Tengjiao Wang 44 4 0 26 Feb 2024
Tell2Design: A Dataset for Language-Guided Floor Plan Generation Sicong Leng Yangqiaoyu Zhou Mohammed Haroon Dupty W. Lee Sam Joyce Wei Lu 3DV 27 11 0 27 Nov 2023
Improving Compositional Text-to-image Generation with Large Vision-Language Models Song Wen Guian Fang Renrui Zhang Peng Gao Hao Dong Dimitris N. Metaxas 25 17 0 10 Oct 2023
Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images Cuican Yu Guansong Lu Yihan Zeng Jian Sun Xiaodan Liang Huibin Li Zongben Xu Songcen Xu Wei Zhang Hang Xu 47 14 0 31 Aug 2023
Improving Tuning-Free Real Image Editing with Proximal Guidance Ligong Han Song Wen Qi Chen Zhixing Zhang Kunpeng Song ... Qilong Zhangli Jindong Jiang Zhaoyang Xia Akash Srivastava Dimitris N. Metaxas DiffM 33 58 0 08 Jun 2023
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising Fu Lee Wang Wenshuo Chen Guanglu Song Han-Jia Ye Yu Liu Hongsheng Li VGen DiffM 48 88 0 29 May 2023
MagicFusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models Jing Zhao Heliang Zheng Chaoyue Wang L. Lan Wenjing Yang VLM 45 17 0 23 Mar 2023
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models Hila Chefer Yuval Alaluf Yael Vinker Lior Wolf Daniel Cohen-Or DiffM 73 497 0 31 Jan 2023
ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions Aashish Anantha Ramakrishnan Sharon X. Huang Dongwon Lee 24 5 0 05 Jan 2023
Muse: Text-To-Image Generation via Masked Generative Transformers Huiwen Chang Han Zhang Jarred Barber AJ Maschinot José Lezama ... Kevin Patrick Murphy William T. Freeman Michael Rubinstein Yuanzhen Li Dilip Krishnan DiffM 197 519 0 02 Jan 2023
SINE: SINgle Image Editing with Text-to-Image Diffusion Models Zhixing Zhang Ligong Han Arna Ghosh Dimitris N. Metaxas Jian Ren DiffM 51 154 0 08 Dec 2022
3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation Zutao Jiang Guangsong Lu Xiaodan Liang Jihua Zhu Wei Zhang Xiaojun Chang Hang Xu DiffM 21 8 0 02 Dec 2022
Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image Generation Xintian Wu Hanbin Zhao Liangli Zheng Shouhong Ding Xi Li 29 13 0 28 Sep 2022
ShapeCrafter: A Recursive Text-Conditioned 3D Shape Generation Model Rao Fu Xiaoyu Zhan Yiwen Chen Daniel E. Ritchie Srinath Sridhar 39 79 0 19 Jul 2022
Intra-agent speech permits zero-shot task acquisition Chen Yan Federico Carnevale Petko Georgiev Adam Santoro Aurelia Guy Alistair Muldal Chia-Chun Hung Josh Abramson Timothy Lillicrap Greg Wayne LM&Ro 36 9 0 07 Jun 2022
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding Chitwan Saharia William Chan Saurabh Saxena Lala Li Jay Whang ... Raphael Gontijo-Lopes Tim Salimans Jonathan Ho David J Fleet Mohammad Norouzi VLM 66 5,778 0 23 May 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 89 6,650 0 13 Apr 2022
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors Oran Gafni Adam Polyak Oron Ashual Shelly Sheynin Devi Parikh Yaniv Taigman DiffM 19 510 0 24 Mar 2022
CM3: A Causal Masked Multimodal Model of the Internet Armen Aghajanyan Po-Yao (Bernie) Huang Candace Ross Vladimir Karpukhin Hu Xu ... Dmytro Okhonko Mandar Joshi Gargi Ghosh M. Lewis Luke Zettlemoyer 15 154 0 19 Jan 2022
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models Alex Nichol Prafulla Dhariwal Aditya A. Ramesh Pranav Shyam Pamela Mishkin Bob McGrew Ilya Sutskever Mark Chen 93 3,475 0 20 Dec 2021
LAFITE: Towards Language-Free Training for Text-to-Image Generation Yufan Zhou Ruiyi Zhang Changyou Chen Chunyuan Li Chris Tensmeyer Tong Yu Jiuxiang Gu Jinhui Xu Tong Sun VLM 35 163 0 27 Nov 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,781 0 24 Feb 2021
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 270 3,375 0 09 Mar 2020
Image Generation from Scene Graphs Justin Johnson Agrim Gupta Li Fei-Fei GNN 223 815 0 04 Apr 2018