深度解析RecraftV3：突破文本渲染限制，文生图黑马是怎样炼成的

编辑：LRST

【新智元导读】Recraft团队通过结合TextDiffuser-2技术和自训练的大型语言模型，提升了文本到图像渲染的质量和准确性，不过现有模型在处理复杂语言如中文和未明确指定的文本时，仍存在渲染不准确的问题。

在当前的图像生成技术中，文本渲染的能力已逐渐成为衡量其先进性的重要标准。不论是学术界的最新研究还是市场上的先进产品，都在竞相展示其处理复杂文本的能力，这不仅标志着技术的进步，更是成为一种创新的分水岭。

实际上，字图生成技术在多个领域内显示出显著的实用性，例如在设计海报、书籍封面、广告和LOGO等方面，已成为不可或缺的工具。

此外，随着社交媒体和数字营销的兴起，能够快速生成视觉吸引力强的图像变得尤为重要。这些图像往往需要结合富有创意的文本，以更好地与目标观众沟通，从而在短时间内吸引用户注意力，提高品牌识别度。

图1 现有文生图方法的生成结果。Prompt: a cat holds a paper saying text rendering is important

在图1中，我们可以直观地看到文生图模型技术的飞速进步。然而，尽管技术日益成熟，部分方法在处理复杂文本时仍显示出一些局限性。

例如，生成的图像有时会遗漏prompt中的关键词，这可能会影响最终图像的可用性。而像Ideogram和Recraft V3这样的产品在文本渲染方面表现出色。

它们能够更精确地捕捉和呈现文本中的细节和语境，从而生成与输入文本高度匹配的图像。

值得一提的是，Recraft V3作为文生图领域的黑马，已经在Artificial Analysis Text to Image Model Leaderboard上以1172的ELO评分获得了第一名（图2）。Recraft的新模型展示出的质量超过了Midjourney、OpenAI以及其他所有主要图像生成公司的模型。

图2 在文生图排行榜上，Recraft V3排名第一

最近，Recraft团队在其官方网站上分享了其在文本渲染技术方面的一些实现细节。接下来的部分，我将详细分析这些技术细节，探讨Recraft如何实现其出色的文本到图像渲染效果。

图3 早期Recraft 20B模型的文本渲染能力不佳。Prompt:a cat with a sign 'Recraft generates text amazingly good!' in its paws

Recraft团队首先尝试使用早期模型模型Recraft 20B基于prompt “a cat with a sign 'Recraft generates text amazingly good!' in its paws”生成图像，结果发现文本渲染效果不佳（图3）。基于此Recraft团队总结分析了几个关键点：

1. 训练数据的限制：文本到图像的生成模型主要是在包含图像及其对应简要描述的数据集上进行优化的。这些描述通常只涵盖图像的大致内容，而不提供具体细节，尤其是图像中的文字内容。因此，当需要生成包含具体文字的图像时，模型因为缺乏详细的条件或例子而表现不佳。

2. 文本错误的易识别性：人类的大脑对于处理和识别文本非常擅长，因此在图像生成中的任何文本错误都很容易被我们发现。

为了解决图像生成模型在处理图像中的文本问题，Recraft团队采用了一种方法，使用文本布局图作为更详细的输入条件。此策略的灵感来源于TextDiffuser-2论文（图4），该论文提供了有效处理文本表征技术。