DeepMind联合MIT开发Fluid，让自回归模型实现文生图的大规模扩展

在视觉领域，扩散模型（diffusion model）已然成为图像生成的新范式。我们熟知的 Stable Diffusion、DALL-E 和 Imagen 等文生图工具都以扩散模型为基础。

而在语言模型领域，自回归模型（autoregressive model）则占据主导位置，大名鼎鼎的 ChatGPT 就使用了此类模型来生成回复。所谓的扩展法则（Scaling Law）在以自回归模型为基础的大模型身上展现出了强大的力量，可以有效的提升性能。

不过，如果回到视觉领域（比如文本生成图像），扩展自回归模型并未像在大语言模型中那样显著有效。许多研究人员正在努力搞清楚原因，并且想办法弥合自回归模型在视觉模型与语言模型之间的性能差距。

近日，来自谷歌 DeepMind 和美国麻省理工学院的研究人员发表了一篇预印本论文，介绍了他们在“提升自回归文生图模型性能”方面的最新进展。

图 | 论文标题《FLUID：使用连续 Token 扩展自回归文本到图像生成模型》（来源：资料图）

该研究团队开发的新模型 Fluid，通过采用连续 Token 和随机顺序策略，成功实现了自回归模型在文生图任务上的大规模扩展，不仅在多项基准测试中达到了领先水平，还提出了关于自回归模型的新见解。

自回归模型在自然语言处理领域取得了巨大成功，但在计算机视觉特别是文生图任务中的表现一直不如扩散模型。

为了探究背后的原因，研究团队对自回归图像生成模型的两个关键设计因素进行了系统性的研究：Token（离散或连续）和生成顺序（光栅顺序或随机顺序）。

研究发现，采用连续 Token 的模型在视觉质量和评估指标上都显著优于使用离散 Token 的模型。这主要是因为离散 Token 化过程会导致大量信息丢失，即使增加模型参数也无法弥补这一缺陷。

例如，在生成著名的蒙娜丽莎画像时，基于离散 Token 的模型即使扩展到 30 亿参数，也无法准确还原画像细节。相比之下，基于连续 Token 的模型可以生成更高质量、更符合文本描述的图像。

图 | 105 亿参数的 Fluid 模型生成的图片（来源：资料图）

在生成顺序方面，研究表明随机顺序模型在生成多个对象和复杂场景时表现更佳。这可能是因为随机顺序允许模型在每个预测步骤中调整图像的全局结构，而光栅顺序模型则缺乏这种灵活性。这一发现对提高文本到图像的对齐度具有重要意义。

基于这些新发现，研究团队开发了 Fluid 模型。Fluid 采用连续 Token 和随机顺序生成策略，在可扩展性和生成质量上都表现出色。

实验结果显示，Fluid 模型的验证损失、FID（Fréchet Inception Distance，是用于衡量两个多元正态分布之间距离的评价指标）评分和 GenEval 得分都随着模型参数规模的增加而持续改善。

值得注意的是，仅有 3.69 亿参数的小型 Fluid 模型就达到了 7.23 的零样本 FID 得分，还在 GenEval 基准测试中达到了 0.62，与拥有 200 亿参数的 Parti 模型（谷歌开发的自回归文生图模型）持平。

受到这一趋势的启发，研究团队将 Fluid 模型进一步扩展到 105 亿参数。该模型在 MS-COCO 数据集上实现了 6.16 的零样本 FID 得分，在 GenEval 基准测试中的综合得分达到 0.69，超越了 DALL-E 3 和 Stable Diffusion 3 等多个使用扩散模型的文生图系统。

Fluid 模型的成功不仅体现在量化指标上，在视觉质量方面也有显著提升。

研究人员展示了 Fluid 模型在各种复杂场景下的生成结果，使用了如“一只愤怒的鸭子在健身房举重”“冬天的蒙娜丽莎”“办公室里三只穿西装的泰迪熊为朋友庆祝生日”等提示。

（来源：资料图）

这些生成的图像不仅细节丰富，而且准确反映了文本描述的内容和情感，展现出模型对文本和图像之间复杂关系的深入理解。

研究团队的实验还揭示了一个现象，即验证损失与评估指标（如 FID 和 GenEval 得分）之间存在强相关性。这意味着通过简单地监测验证损失，就可以在一定程度上预测模型在下游任务中的表现。

此外，研究还发现与语言模型类似的是，增加训练步数和计算量可以持续提升 Fluid 模型的性能。但是，该团队也观察到对于较小的模型，增加训练步数的效果不如直接扩大模型规模。这一发现强调了模型规模在提升性能中的关键作用。

Fluid 模型不仅标志着自回归模型在文生图任务上的新进展，也为计算机视觉领域的模型扩展提供了新的思路。课题组指出，这项工作可能有助于缩小视觉模型和语言模型在扩展性能上的差距。

然而，研究人员也承认，尽管 Fluid 模型在多个指标上取得了领先，但在某些方面仍有提升空间。

图 | 不同模型之间的性能对比（来源：资料图）

例如，在 GenEval 基准测试的某些子任务中，如位置关系理解和渲染两个物体，Fluid 模型的表现仍落后于一些最先进的扩散模型。这表明在处理某些特定类型的视觉任务时，不同的模型架构可能各有优势。

总的来说，这项研究为自回归文生图模型的发展开辟了新方向。通过采用连续 Token 和随机顺序生成策略，Fluid 模型成功实现了大规模扩展，在多个关键指标上达到或超越了现有最先进的模型。

随着这一技术的进一步发展和完善，我们或许可以期待看到更多令人惊叹的应用，如更精确的图像编辑工具、更智能的视觉内容创作辅助工具等等。也可以激发更多人探索自回归模型在视觉任务中的潜力，推动 AI 在理解和生成视觉内容方面取得新的突破。

参考资料：

https://arxiv.org/pdf/2410.13863

排版：初嘉实

世良情感网

DeepMind联合MIT开发Fluid，让自回归模型实现文生图的大规模扩展

深科技利大千