AIGC生成风格统一图片的方法介绍

过去一段时间以来，AIGC图片生成技术快速发展，在电商以及内容创作领域展现出来极高的应用价值。除了基础的基于prompt的文生图能力，社区还涌现出来更多的扩展技术。比如Controlnet技术能利用线稿信息、深度信息等对生成图片的空间结构进行控制，还有IP-Adapter技术能够基于参考图片的内容对生成图片进行风格迁移。这些技术都便利了用户对AIGC的使用。

本文将介绍如何利用AIGC生成多张风格一致的图片的技术。对此，本文挑选了两篇比较有代表性的方法：Style Aligned方法和Story Diffusion方法，本文会对这两种方法的原理和技术细节进行介绍。然后，我们展示了相关方法应用在家装领域上的一些效果，并分析了目前效果的优点与不足。最后我们对本文内容进行了总结，并讨论了该类方法未来的应用前景。

技术介绍

我们在这里简单介绍一下生成多张风格一致图片的AIGC技术，包括Style Aligned方法以及Story Diffusion方法。

▐Style Aligned 方法

Style Aligned方法的目标是生成符合prompt的一批风格一致的图片。想要实现该目标，最简单直接的方法是在prompt中使用相同的风格描述词，但是由于在生成过程中，图片之间对彼此的内容缺乏了解，导致最后风格往往很难达成一致。

Style Aligned方法的核心思想是在生成过程中设计共享self-attention机制，从而实现同一批图片彼此内容的交流。具体来说，Style Aligned在生成一批图片时，会让每一张图片参考该图片本身以及该批图片中第一张图片的特征进行共享self-attention的计算，实现同一批图片在特征上的对齐，从而生成多张风格一致的图片。

▐Story Diffusion 方法

Story Diffusion方法包含两个阶段，在第一阶段中，提出了Consistent Self-Attention, 一种training-free 的方式，来生成主题一致性的一系列图像。在第二阶段中，利用之前生成的一致性图片，作者构建了一个transformer block，它在语义隐空间预测中间帧，并用视频生成模型来把语义隐空间的向量重新解码成视频。

本文接下来对第一阶段的一些细节进行讲解。对于输入的一段长prompt，首先会将其按场景分为多段prompt，每段prompt分别对应生成一张图片。为了构成连环画或视频，这些图片的主体需要保持一致，作者提出了Consistent Self-Attention方法来实现这一目标。Consistent Self-Attention 对于每一帧在计算Self-Attention 的时候，会随机采样batch 内其他帧的内容，作为Key 和 Value 的一部分，实现了batch 内图像的细节交互。

运用Consistent Self-Attention之后，人脸可以保证特别好的保持效果，结合prompt的辅助控制，也能较好的保持衣物细节。因为保持人物id的性质，这一部分不仅可以作为视频关键帧，也可以用作漫画生成。

实测效果

我们在家装场景中对Style Aligned方法的效果进行了测试。我们将一件家具的多张视角图片作为一个batch输入到Style Aligned中，然后对这些家具填充背景。Style Aligned的输出如下图所示，可以看到同一批图片中，不同视角下的家具在整体装修上的风格是可以保持一致的。但是，进一步观察，这些图片在空间结构和物体细节上还是无法精准的保持一致的，这可以作为未来研究的一个方向。

结语

本文介绍了两种生成多张风格一致图片的AIGC技术,即Style Aligned方法和Story Diffusion方法。Style Aligned方法通过共享self-attention机制实现图片间特征对齐,而Story Diffusion方法则利用Consistent Self-Attention在语义隐空间实现主题一致性。实验结果显示,这些方法能够较好地保持同批图片的整体风格一致性,但在保持空间结构和细节方面的一致性仍有提升空间。总的来说,这些技术为AIGC生成连贯性图像序列提供了有益探索,对于视频/漫画等应用场景具有重要意义。

参考资料

[1] Amir Hertz, Andrey Voynov, Shlomi Fruchter and Daniel Cohen-Or. Style Aligned Image Generation via Shared Attention. In CVPR, 2024.

[2] Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng and Qibin Hou. StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation. arXiv preprint arXiv:2405.01434, 2024.

团队介绍

我们是淘天集团-场景智能技术团队，一支专注于通过AI和3D技术驱动商业创新的技术团队, 依托大淘宝丰富的业务形态和海量的用户、数据, 致力于为消费者提供创新的场景化导购体验, 为商家提供高效的场景化内容创作工具, 为淘宝打造围绕家的场景的第一消费入口。我们不断探索并实践新的技术, 通过持续的技术创新和突破，创新用户导购体验, 提升商家内容生产力, 让用户享受更好的消费体验, 让商家更高效、低成本地经营。

世良情感网

科技梦想在奔跑