STRICT: Stress Test of Rendering Images Containing Text

25 May 2025

Papers citing "STRICT: Stress Test of Rendering Images Containing Text"

29 / 29 papers shown

Title
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark Forouzan Fallah Maitreya Patel Agneet Chatterjee Vlad I. Morariu Chitta Baral Yezhou Yang CoGe 100 1 0 17 Mar 2025
TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization Yucong Luo Mingyue Cheng Jie Ouyang Xiaoyu Tao Qi Liu EGVM 55 1 0 28 Jan 2025
AnyText2: Visual Text Generation and Editing With Customizable Attributes Yuxiang Tuo Yifeng Geng Liefeng Bo VLM 125 10 0 22 Nov 2024
TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models Georgia Gabriela Sampaio Ruixiang Zhang Shuangfei Zhai Jiatao Gu J. Susskind Navdeep Jaitly Yizhe Zhang DiffM CLIP 63 1 0 02 Nov 2024
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering Zeyu Liu Weicong Liang Yiming Zhao Bohan Chen Lin Liang Lijuan Wang Ji Li Yuhui Yuan 62 21 0 14 Jun 2024
Chameleon: Mixed-Modal Early-Fusion Foundation Models Chameleon Team MLLM 191 333 0 16 May 2024
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation Yuying Ge Sijie Zhao Jinguo Zhu Yixiao Ge Kun Yi Lin Song Chen Li Xiaohan Ding Ying Shan VLM 115 142 0 22 Apr 2024
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders Parishad BehnamGhader Vaibhav Adlakha Marius Mosbach Dzmitry Bahdanau Nicolas Chapados Siva Reddy 94 238 0 09 Apr 2024
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction Keyu Tian Yi Jiang Zehuan Yuan Bingyue Peng Liwei Wang VGen 91 342 0 03 Apr 2024
Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation Sanyam Lakhanpal Shivang Chopra Vinija Jain Aman Chadha Man Luo 52 11 0 25 Mar 2024
Long-CLIP: Unlocking the Long-Text Capability of CLIP Beichen Zhang Pan Zhang Xiao-wen Dong Yuhang Zang Jiaqi Wang CLIP VLM 86 138 0 22 Mar 2024
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering Zeyu Liu Weicong Liang Zhanhao Liang Chong Luo Ji Li Gao Huang Yuhui Yuan DiffM 92 33 0 14 Mar 2024
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Patrick Esser Sumith Kulal A. Blattmann Rahim Entezari Jonas Muller ... Zion English Kyle Lacey Alex Goodwin Yannik Marek Robin Rombach DiffM 288 1,388 0 05 Mar 2024
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action Jiasen Lu Christopher Clark Sangho Lee Zichen Zhang Savya Khosla Ryan Marten Derek Hoiem Aniruddha Kembhavi VLM MLLM 77 174 0 28 Dec 2023
UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models Yiming Zhao Zhouhui Lian 108 30 0 08 Dec 2023
TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering Jingye Chen Yupan Huang Tengchao Lv Lei Cui Qifeng Chen Furu Wei DiffM 86 70 0 28 Nov 2023
AnyText: Multilingual Visual Text Generation And Editing Yuxiang Tuo Wangmeng Xiang Jun-Yan He Yifeng Geng Xuansong Xie DiffM 85 83 0 06 Nov 2023
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists Yulu Gan Sungwoo Park Alexander Schubert Anthony Philippakis Ahmed Alaa VLM 63 25 0 30 Sep 2023
GlyphControl: Glyph Conditional Control for Visual Text Generation Yukang Yang Dongnan Gui Yuhui Yuan Weicong Liang Haisong Ding Hang-Rui Hu Kai Chen DiffM 79 85 0 29 May 2023
TextDiffuser: Diffusion Models as Text Painters Jingye Chen Yupan Huang Tengchao Lv Lei Cui Qifeng Chen Furu Wei 110 126 0 18 May 2023
Improving Diffusion Models for Scene Text Editing with Dual Encoders Jiabao Ji Guanhua Zhang Zhaowen Wang Bairu Hou Zhifei Zhang Brian L. Price Shiyu Chang DiffM 59 31 0 12 Apr 2023
TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering Yushi Hu Benlin Liu Jungo Kasai Yizhong Wang Mari Ostendorf Ranjay Krishna Noah A. Smith EGVM 69 238 0 21 Mar 2023
Text-to-image Diffusion Models in Generative AI: A Survey Chenshuang Zhang Chaoning Zhang Mengchun Zhang In So Kweon VLM 101 279 0 14 Mar 2023
Character-Aware Models Improve Visual Text Rendering Rosanne Liu Daniel H Garrette Chitwan Saharia William Chan Adam Roberts Sharan Narang Irina Blok R. Mical Mohammad Norouzi Noah Constant VLM 93 74 0 20 Dec 2022
Robust Speech Recognition via Large-Scale Weak Supervision Alec Radford Jong Wook Kim Tao Xu Greg Brockman C. McLeavey Ilya Sutskever OffRL 201 3,732 0 06 Dec 2022
eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers Yogesh Balaji Seungjun Nah Xun Huang Arash Vahdat Jiaming Song ... Timo Aila S. Laine Bryan Catanzaro Tero Karras Xuan Li VLM MoE 177 828 0 02 Nov 2022
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal Yuval Alaluf Yuval Atzmon Or Patashnik Amit H. Bermano Gal Chechik Daniel Cohen-Or 164 1,894 0 02 Aug 2022
Semantic Distance: A New Metric for ASR Performance Analysis Towards Spoken Language Understanding Suyoun Kim Abhinav Arora Duc Le Ching-Feng Yeh Christian Fuegen Ozlem Kalinli M. Seltzer 66 28 0 05 Apr 2021
Unsupervised Cross-lingual Representation Learning for Speech Recognition Alexis Conneau Alexei Baevski R. Collobert Abdel-rahman Mohamed Michael Auli SSL 154 782 0 24 Jun 2020