字节版Sora：AI视频生成的新突破

一、惊艳亮相

字节跳动旗下火山引擎在深圳举办的 AI 创新巡展，如同在科技领域投下了一颗震撼弹。两款视频生成大模型 PixelDance 和 Seaweed 的推出，瞬间吸引了各界的目光。

PixelDance 基于 DiT 架构，拥有高效的 DiT 融合计算单元，能够实现复杂的多主体运动交互和多镜头内容一致性。它能理解并执行复杂的文本提示，实现多个主体间的交互和时序性多拍动作指令，还具备强大的动态效果和炫酷的运镜能力，一键生成具有故事性的多镜头短片不在话下。其支持多种风格和比例，如 3D 动画、2D 动画、国画、黑白等风格，以及 1:1、3:4、4:3、16:9、9:16、21:9 等视频比例，为创作者提供了广阔的创作空间。

Seaweed 则基于 Transformer 结构，利用时空压缩技术进行训练，原生支持多分辨率输出。默认生成 720p、24fps、5 秒视频，可延长至 20 - 30 秒。它生成的视频逼真度高，细节丰富，动态流畅，色彩光影专业，广泛应用于电商、文旅、教育、影视等领域，大幅降低视频制作门槛，提升内容创作效率。

这两款模型的推出，标志着字节跳动在视频生成领域迈出了坚实的一步。不仅为创作者带来了全新的工具，也为各个行业的视频制作带来了更多的可能性。它们的出现，必将推动视频创作领域的创新与发展，引领行业走向新的高度。

二、强大功能

（一）解锁多动作与多主体

目前市面上大部分视频生成模型，只能完成简单指令或单一动作。而字节跳动的这两款模型却能突破这一局限。它们可以遵从复杂的 Prompt，精准理解语义关系，从而捕捉多动作序列和主体互动。例如，输入 “梵高站在自己的画作前，捂嘴大笑起来，脸上的褶子都清晰可见；随即又秒变严肃，手缓缓落下，捋捋自己的小胡子” 这样复杂的描述，模型能生成整套动作行云流水、表情自然逼真的视频。再如 “两名宇航员行走在夜晚繁华的街道上”，画面中的两名航天员走路姿势正常，与真人无异，身后的人群和两侧的建筑也都栩栩如生。这表明模型在多动作和多主体的生成方面具有强大的能力，能够为创作者提供更加丰富的创作素材。

（二）动作灵活与运镜酷炫

豆包视频模型的镜头语言多样，变焦、环绕、平摇、缩放、目标跟随等超多镜头语言都能灵活运用。这使得视频细节更加丰满，表情也更加丰富。例如，在 “一个推进镜头，沿着树木成行的郊区住宅街道拍摄，白天，天空晴朗湛蓝，色彩饱和，对比度高” 的 Prompt 下，随着镜头缓慢推进，干净的街道、树木掩映的成排小别墅以及优秀的光影效果都能完美呈现。而且，模型还成功攻克了多镜头切换时难以保持一致性的困扰，可在 10 秒内讲述一个起承转合的故事。比如睡美人的故事，涉及多个镜头的切换，但主体、风格、氛围和逻辑仍能保持一致性。这种强大的运镜能力和一致性控制，为视频创作带来了更多的可能性。

（三）审美高级与风格多变

豆包新模型采用深度优化的 Transformer 结构，大幅提升了视频生成的泛化能力。它支持黑白、3D 动画、2D 动画、国画、厚涂等多种风格。比如，一只戴着墨镜的北极熊在海里游泳，水面上泛起微波，甚至还折射出了北极熊的影子；身穿灰色时尚卫衣的猫咪，迈着 “六亲不认” 的步伐，走在星光闪耀的 T 台上。这些不同风格的视频展示了模型的高级审美和强大的风格适应能力，能够满足不同创作者的需求，为视频创作带来更多的创意和惊喜。

三、优势亮点

（一）技术创新

字节跳动的豆包视频生成模型基于 DiT 架构，通过高效的 DiT 融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性。这一技术创新为视频创作带来了前所未有的体验。

此前经过剪映、即梦 AI 等业务场景打磨，豆包视频生成模型已经具备专业级光影布局和色彩调和。例如，在一些生成的视频中，人物的光影效果自然逼真，色彩搭配和谐，仿佛专业摄影师拍摄的作品。这种专业级的光影布局和色彩调和，使得视频更加生动、吸引人。

（二）性能强大

豆包大模型性能强大，默认支持 800K 的初始 TPM，相比业内多家大模型最高仅支持 300K 甚至 100K 的 TPM，具有明显优势。例如某科研机构的文献翻译场景，TPM 峰值为 360K，某汽车智能座舱的 TPM 峰值为 420K，某 AI 教育公司的 TPM 峰值更是达到 630K，而豆包大模型能够轻松承载这样的企业生产环境流量，还可根据需求灵活扩容。

这次，豆包大模型不仅新增视频生成模型，还发布了豆包音乐模型和同声传译模型，已全面覆盖语言、语音、图像、视频等全模态，可以满足不同行业和领域的业务场景需求。比如在音乐创作方面，用户输入 Prompt 就可以得到一段歌词，然后在 10 余种不同风格的音乐和情绪表达中选择进一步创作出歌曲，再基于豆包语音能力，生成可以媲美真人演唱效果的声音，还能实现气口、真假音转换技巧的模拟。在同声传译方面，豆包同声传译模型可以做到边说边译，且在办公、法律、教育等场景接近甚至超越人类同传水平，还能支持跨语言同音色翻译。

（三）生态丰富

火山引擎成立了多个大模型生态联盟，为模型发展提供了广阔空间。今年 5 月，火山引擎与 OPPO、vivo、荣耀、小米、三星、华硕宣布成立智能终端大模型联盟。同在 5 月，火山引擎联合中国电动汽车百人会与一汽、吉利、长城、广汽、捷途、智己等 20 余家厂商，宣布成立汽车大模型生态联盟。8 月，汽车大模型生态联盟迎来第二批成员单位加入，包括领克汽车、吉利银河、几何汽车、上汽荣威、上汽名爵、雄狮科技、大圣科技等厂商。还有今年 8 月，火山引擎携手多点 DMALL 成立零售大模型生态联盟，联盟首批成员包括物美集团、抖音电商、抖音生活服务、百胜、麦当劳、中国飞鹤、海底捞、居然之家、南 7 - 11、重庆百货、百果园、波司登、天虹、三得利、绝味、名创优品、NielsenIQ、电通等。

这些大模型生态联盟涵盖了多个行业和领域，为豆包大模型的应用提供了丰富的场景和机会。通过与各行业的合作，豆包大模型能够不断优化和改进，为用户提供更加优质的服务和体验。

四、未来展望

字节版 Sora 的出现无疑为 AI 视频生成领域带来了新的活力与希望，但同时也面临着诸多挑战。然而，其潜力巨大，未来发展前景广阔。

从技术层面来看，虽然目前两款视频生成大模型已经取得了显著的突破，但 AI 视频生成技术仍有很大的发展空间。例如，如何进一步提高视频的画质和保真度，如何生成更长、更复杂的视频内容，以及如何更好地处理视频中的逻辑和叙事等问题，都需要不断地探索和创新。随着技术的不断进步，字节版 Sora 有望在这些方面持续演进，为创作者提供更加优质的视频生成服务。

在应用场景方面，字节版 Sora 的潜力巨大。除了目前已经广泛应用的电商营销、动画教育、城市文旅和微剧本等领域，未来还可以拓展到更多的行业和领域。例如，在影视制作领域，AI 视频生成技术可以大大降低制作成本，提高制作效率，为观众带来更多精彩的影视作品。在广告营销领域，个性化的视频广告可以更好地吸引消费者的注意力，提高广告效果。在教育领域，AI 生成的视频可以为学生提供更加生动、直观的学习体验。

此外，随着人工智能技术的不断发展，AI 视频生成技术也将与其他技术相结合，创造出更多的可能性。例如，与虚拟现实（VR）和增强现实（AR）技术相结合，可以为用户带来更加沉浸式的体验；与区块链技术相结合，可以更好地保护视频的版权和知识产权。

总之，字节版 Sora 虽面临挑战，但潜力巨大。在未来的发展中，它将在 AI 视频生成领域持续演进，不断创新，为创作者带来更多的惊喜和启发，为各个行业的发展注入新的动力。

世良情感网

婧婧谈天下事件