GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment

17 October 2023

Papers citing "GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment"

41 / 41 papers shown

Title
MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO Yicheng Xiao Lin Song Y. Chen Yingmin Luo Yuxin Chen Yukang Gan Wei Huang Xiu Li Xiaojuan Qi Ying Shan LRM 17 0 0 19 May 2025
LOVE: Benchmarking and Evaluating Text-to-Video Generation and Video-to-Text Interpretation Jiarui Wang Huiyu Duan Ziheng Jia Yu Zhao Woo Yi Yang ... Z. Chen Juntong Wang Yuke Xing Guangtao Zhai Xiongkuo Min VGen 17 0 0 17 May 2025
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis Bingda Tang Boyang Zheng Xichen Pan Sayak Paul Saining Xie 34 0 0 15 May 2025
DanceGRPO: Unleashing GRPO on Visual Generation Zeyue Xue Jie Wu Yu Gao Fangyuan Kong Lingting Zhu ... Zhiheng Liu Wei Liu Qiushan Guo Weilin Huang Ping Luo EGVM VGen 54 0 0 12 May 2025
Flow-GRPO: Training Flow Matching Models via Online RL Jie Liu Gongye Liu Jiajun Liang Yongqian Li Jiaheng Liu Xihuai Wang Pengfei Wan Di Zhang Wanli Ouyang AI4CE 75 0 0 08 May 2025
InstanceGen: Image Generation with Instance-level Instructions Etai Sella Yanir Kleiman Hadar Averbuch-Elor 36 0 0 08 May 2025
Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability Liwen Wang Senmao Li Fei Yang Jianye Wang Ziheng Zhang Yu Liu Yansen Wang Jian Yang DiffM 61 0 0 06 May 2025
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing Ming Li Xin Gu Fan Chen X. Xing Longyin Wen Cen Chen Sijie Zhu DiffM 83 1 0 05 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Jiahui Geng Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 74 0 0 05 May 2025
Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction Biao Gong Cheng Zou Dandan Zheng Hu Yu Jingdong Chen ... Qingpei Guo Rui Liu Weilong Chai Xinyu Xiao Ziyuan Huang MLLM 79 1 0 05 May 2025
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation D. Zhang Che Jiang Ruoshi Xu Biaoxiang Chen Zijian Jin Yutian Lu Jianguo Zhang Liang Yong Jiebo Luo Shengda Luo VLM 55 0 0 02 May 2025
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models Xu Ma Peize Sun Haoyu Ma Hao Tang Chih-Yao Ma ... Matt Feiszli Peizhao Zhang Peter Vajda Sam S. Tsai Y. Fu 78 2 0 24 Apr 2025
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning Le Zhuo Liangbing Zhao Sayak Paul Yue Liao Renrui Zhang Yi Xin Peng Gao Mohamed Elhoseiny Yiming Li VLM 75 0 0 22 Apr 2025
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens Kaihang Pan Wang Lin Zhongqi Yue Tenglong Ao Liyu Jia Wei Zhao Juncheng Billy Li Siliang Tang Hanwang Zhang 58 2 0 20 Apr 2025
DyDiT++: Dynamic Diffusion Transformers for Efficient Visual Generation Wangbo Zhao Yizeng Han Jiasheng Tang Kai Wang Hao Luo Yibing Song Gao Huang Fan Wang Yang You 74 0 0 09 Apr 2025
OmniCaptioner: One Captioner to Rule Them All Yiting Lu Jiakang Yuan Zhen Li Jike Zhong Qi Qin ... Lei Bai Zhibo Chen Peng Gao Bo Zhang Peng Gao MLLM 81 0 0 09 Apr 2025
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation Zhiyuan Yan Junyan Ye Weijia Li Zilong Huang Shenghai Yuan Xiangyang He Kaiqing Lin Jun-Jian He Conghui He Li Yuan MLLM EGVM 96 12 0 03 Apr 2025
FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning Hang Guo Yawei Li Taolin Zhang Jie Wang Tao Dai Shu-Tao Xia Luca Benini 75 2 0 30 Mar 2025
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation Size Wu Wenwei Zhang Lumin Xu Sheng Jin Zhonghua Wu Qingyi Tao Wentao Liu Wei Li Chen Change Loy VGen 227 2 0 27 Mar 2025
Training-free Diffusion Acceleration with Bottleneck Sampling Ye Tian Xin Xia Yuxi Ren Shanchuan Lin Xing Wang Xuefeng Xiao Yunhai Tong L. Yang Bin Cui 68 0 0 24 Mar 2025
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing Tsu-Jui Fu Yusu Qian Chen Chen Wenze Hu Zhe Gan Yuqing Yang 106 1 0 16 Mar 2025
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation Junsong Chen Shuchen Xue Yuyang Zhao Jincheng Yu Sayak Paul Junyu Chen Han Cai Enze Xie Enze Xie VLM 71 2 0 12 Mar 2025
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation Zhenpeng Chen Chunwei Wang Xiuwei Chen Hang Xu Jiawei Han Xiandan Liang VLM 73 1 0 09 Mar 2025
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation H. Seo Wongi Jeong Jae-sun Seo Se Young Chun 62 0 0 12 Feb 2025
Dual Caption Preference Optimization for Diffusion Models Amir Saeidi Yiran Luo Agneet Chatterjee Shamanthak Hegde Bimsara Pathiraja Yezhou Yang Chitta Baral DiffM 63 0 0 09 Feb 2025
A General Framework for Inference-time Scaling and Steering of Diffusion Models R. Singhal Zachary Horvitz Ryan Teehan Mengye Ren Zhou Yu Kathleen McKeown Rajesh Ranganath DiffM 71 16 0 17 Jan 2025
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows Shufan Li Konstantinos Kallidromitis Akash Gokul Zichun Liao Yusuke Kato Kazuki Kozuka Aditya Grover VGen 102 5 0 02 Dec 2024
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis Anton Voronov Denis Kuznedelev Mikhail Khoroshikh Valentin Khrulkov Dmitry Baranchuk 119 2 0 02 Dec 2024
IQA-Adapter: Exploring Knowledge Transfer from Image Quality Assessment to Diffusion-based Generative Models Khaled Abud Sergey Lavrushkin Alexey Kirillov D. Vatolin 99 0 0 02 Dec 2024
DyMO: Training-Free Diffusion Model Alignment with Dynamic Multi-Objective Scheduling Xin Xie Dong Gong 84 1 0 01 Dec 2024
Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads Siqi Kou Jiachun Jin Chang Liu Ye Ma Jian Jia Quan Chen Peng Jiang Zhijie Deng Zhijie Deng DiffM VGen VLM 137 6 0 28 Nov 2024
Bag of Design Choices for Inference of High-Resolution Masked Generative Transformer Shitong Shao Zikai Zhou Tian Ye Lichen Bai Zhiqiang Xu Zeke Xie DiffM 53 0 0 16 Nov 2024
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers Enze Xie Junsong Chen Junyu Chen Han Cai Haotian Tang ... Zhekai Zhang Zhekai Zhang Ligeng Zhu Yaojie Lu Song Han VLM 52 51 0 14 Oct 2024
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis Jinbin Bai Tian-Chun Ye Wei Chow Enxin Song Qing-Guo Chen Hefei Ling Zhen Dong Lei Zhu 71 14 0 10 Oct 2024
EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing Haotian Sun Tao Lei Bowen Zhang Yanghao Li Haoshuo Huang Ruoming Pang Bo Dai Nan Du DiffM MoE 88 5 0 02 Oct 2024
Alignment of Diffusion Models: Fundamentals, Challenges, and Future Buhua Liu Shitong Shao Bao Li Lichen Bai Zhiqiang Xu Haoyi Xiong James Kwok Sumi Helal Zeke Xie 47 12 0 11 Sep 2024
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining Dongyang Liu Shitian Zhao Le Zhuo Weifeng Lin Ping Luo Xinyue Li Qi Qin Yu Qiao Hongsheng Li Peng Gao MLLM 79 48 0 05 Aug 2024
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget Vikash Sehwag Xianghao Kong Jingtao Li Michael Spranger Lingjuan Lyu DiffM 47 9 0 22 Jul 2024
Not All Noises Are Created Equally:Diffusion Noise Selection and Optimization Zipeng Qi Lichen Bai Haoyi Xiong Zeke Xie DiffM 39 18 0 19 Jul 2024
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Patrick Esser Sumith Kulal A. Blattmann Rahim Entezari Jonas Muller ... Zion English Kyle Lacey Alex Goodwin Yannik Marek Robin Rombach DiffM 135 1,089 0 05 Mar 2024
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,805 0 24 Feb 2021