AI行业的巨变StableDiffusion3类似Sora对视频的颠覆

StabilityAI 揭示了 Stable Diffusion 3，它对 AI 图像的作用就像 Sora 对视频的作用一，样，人工智能的一大飞跃。

Stable Diffusion 3 是流行的下一代开源 AI 图像生成模型，由 StabilityAI 推出，这是一个令人印象深刻的飞跃。

新模型的细节与一系列图像和提示一起被揭示，表明它能够遵循复杂的指令并创建超逼真的图像。

该模型的早期预览版仅供选定的测试人员使用，而 StabilityAI 会在公开发布之前收集反馈以提高性能和安全性。

StabilityAI 还使用了 Spawning “Do Not Train” 注册表来确保排除来自不希望他们的作品用于训练 AI 的艺术家的图像。在训练之前，从数据集中过滤了超过 15 亿张图像。

什么是 Stable Diffusion 3？

宣布推出 Stable Diffusion 3，这是我们功能最强大的文本到图像模型，它利用 diffusion transformer 架构大大提高了多主题提示、图像质量和拼写能力的性能。今天，我们将开放候补名单进行早期预览。这个阶段...pic.twitter.com/FRn4ofC57sFebruary 22， 2024

Stable Diffusion 3 生成的图像

与 DALL-E 不同，MidJourney 或 Google 的 Imagen Stable Diffusion 是一种开放模型，如果您有足够的计算能力，可以集成到其他平台中，甚至可以在本地运行。

SD3 将包括一套从 8 亿到 80 亿参数的模型，允许不同的质量水平和在各种硬件设备上运行。与 OpenAI 的 Sora 一样，Stable Diffusion 3 将扩散模型技术与 transformer 架构相结合，这可以解释改进的指令跟踪功能。

它还使用流动匹配，这是一种用于训练扩散模型的数学技术，涉及测量真实世界图像和生成图像在过程不同阶段之间的差异。

Stable Diffusion 3 能做什么？

SD3 生成的图像。

这张图片的提示几乎完全按照。它是：“蓝色立方体顶部的红色球体的照片。在他们身后是一个绿色的三角形，右边是一只狗，左边是一只猫”。（图片来源：StabilityAI）

开发团队之外很少有人能够直接接触 Stable Diffusion 3，而且研究论文尚未发表，因此我们对它的能力的了解是团队所说的话和他们分享的成果。

从我目前所看到的图像来看，这是生成图像的重大变化。它与 OpenAI 的 Sora 一起，标志着生成式 AI 的工作方式及其工作方式的重大升级。

它似乎可以在图像上创建一致、扩展和清晰的文本，解决包括手指在内的人体解剖学问题，并很好地捕捉颜色。

StabilityAI 的创始人 Emad Mostaque 表示，StabilityAI 用于训练 AI 模型的资源比 OpenAI 等公司少 100 倍，但仍在取得令人印象深刻的工作。他建议，像Sora一样，SD3将能够接受一系列输入，包括视频和图像。

SD3 的细节是在 StabilityAI 还推出了 Stable Cascade 几天后发布的，这是一种用于生成图像的新技术，Mostaque 表示将来将与 SD3 一起使用。