字节跳动旗下火山引擎在深圳举办的 AI 创新巡展,如同在科技领域投下了一颗震撼弹。两款视频生成大模型 PixelDance 和 Seaweed 的推出,瞬间吸引了各界的目光。
PixelDance 基于 DiT 架构,拥有高效的 DiT 融合计算单元,能够实现复杂的多主体运动交互和多镜头内容一致性。它能理解并执行复杂的文本提示,实现多个主体间的交互和时序性多拍动作指令,还具备强大的动态效果和炫酷的运镜能力,一键生成具有故事性的多镜头短片不在话下。其支持多种风格和比例,如 3D 动画、2D 动画、国画、黑白等风格,以及 1:1、3:4、4:3、16:9、9:16、21:9 等视频比例,为创作者提供了广阔的创作空间。
Seaweed 则基于 Transformer 结构,利用时空压缩技术进行训练,原生支持多分辨率输出。默认生成 720p、24fps、5 秒视频,可延长至 20 - 30 秒。它生成的视频逼真度高,细节丰富,动态流畅,色彩光影专业,广泛应用于电商、文旅、教育、影视等领域,大幅降低视频制作门槛,提升内容创作效率。
这两款模型的推出,标志着字节跳动在视频生成领域迈出了坚实的一步。不仅为创作者带来了全新的工具,也为各个行业的视频制作带来了更多的可能性。它们的出现,必将推动视频创作领域的创新与发展,引领行业走向新的高度。
二、强大功能(一)解锁多动作与多主体目前市面上大部分视频生成模型,只能完成简单指令或单一动作。而字节跳动的这两款模型却能突破这一局限。它们可以遵从复杂的 Prompt,精准理解语义关系,从而捕捉多动作序列和主体互动。例如,输入 “梵高站在自己的画作前,捂嘴大笑起来,脸上的褶子都清晰可见;随即又秒变严肃,手缓缓落下,捋捋自己的小胡子” 这样复杂的描述,模型能生成整套动作行云流水、表情自然逼真的视频。再如 “两名宇航员行走在夜晚繁华的街道上”,画面中的两名航天员走路姿势正常,与真人无异,身后的人群和两侧的建筑也都栩栩如生。这表明模型在多动作和多主体的生成方面具有强大的能力,能够为创作者提供更加丰富的创作素材。
(二)动作灵活与运镜酷炫豆包视频模型的镜头语言多样,变焦、环绕、平摇、缩放、目标跟随等超多镜头语言都能灵活运用。这使得视频细节更加丰满,表情也更加丰富。例如,在 “一个推进镜头,沿着树木成行的郊区住宅街道拍摄,白天,天空晴朗湛蓝,色彩饱和,对比度高” 的 Prompt 下,随着镜头缓慢推进,干净的街道、树木掩映的成排小别墅以及优秀的光影效果都能完美呈现。而且,模型还成功攻克了多镜头切换时难以保持一致性的困扰,可在 10 秒内讲述一个起承转合的故事。比如睡美人的故事,涉及多个镜头的切换,但主体、风格、氛围和逻辑仍能保持一致性。这种强大的运镜能力和一致性控制,为视频创作带来了更多的可能性。
(三)审美高级与风格多变豆包新模型采用深度优化的 Transformer 结构,大幅提升了视频生成的泛化能力。它支持黑白、3D 动画、2D 动画、国画、厚涂等多种风格。比如,一只戴着墨镜的北极熊在海里游泳,水面上泛起微波,甚至还折射出了北极熊的影子;身穿灰色时尚卫衣的猫咪,迈着 “六亲不认” 的步伐,走在星光闪耀的 T 台上。这些不同风格的视频展示了模型的高级审美和强大的风格适应能力,能够满足不同创作者的需求,为视频创作带来更多的创意和惊喜。
三、优势亮点(一)技术创新字节跳动的豆包视频生成模型基于 DiT 架构,通过高效的 DiT 融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。这一技术创新为视频创作带来了前所未有的体验。
此前经过剪映、即梦 AI 等业务场景打磨,豆包视频生成模型已经具备专业级光影布局和色彩调和。例如,在一些生成的视频中,人物的光影效果自然逼真,色彩搭配和谐,仿佛专业摄影师拍摄的作品。这种专业级的光影布局和色彩调和,使得视频更加生动、吸引人。
(二)性能强大豆包大模型性能强大,默认支持 800K 的初始 TPM,相比业内多家大模型最高仅支持 300K 甚至 100K 的 TPM,具有明显优势。例如某科研机构的文献翻译场景,TPM 峰值为 360K,某汽车智能座舱的 TPM 峰值为 420K,某 AI 教育公司的 TPM 峰值更是达到 630K,而豆包大模型能够轻松承载这样的企业生产环境流量,还可根据需求灵活扩容。
这次,豆包大模型不仅新增视频生成模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖语言、语音、图像、视频等全模态,可以满足不同行业和领域的业务场景需求。比如在音乐创作方面,用户输入 Prompt 就可以得到一段歌词,然后在 10 余种不同风格的音乐和情绪表达中选择进一步创作出歌曲,再基于豆包语音能力,生成可以媲美真人演唱效果的声音,还能实现气口、真假音转换技巧的模拟。在同声传译方面,豆包同声传译模型可以做到边说边译,且在办公、法律、教育等场景接近甚至超越人类同传水平,还能支持跨语言同音色翻译。
(三)生态丰富火山引擎成立了多个大模型生态联盟,为模型发展提供了广阔空间。今年 5 月,火山引擎与 OPPO、vivo、荣耀、小米、三星、华硕宣布成立智能终端大模型联盟。同在 5 月,火山引擎联合中国电动汽车百人会与一汽、吉利、长城、广汽、捷途、智己等 20 余家厂商,宣布成立汽车大模型生态联盟。8 月,汽车大模型生态联盟迎来第二批成员单位加入,包括领克汽车、吉利银河、几何汽车、上汽荣威、上汽名爵、雄狮科技、大圣科技等厂商。还有今年 8 月,火山引擎携手多点 DMALL 成立零售大模型生态联盟,联盟首批成员包括物美集团、抖音电商、抖音生活服务、百胜、麦当劳、中国飞鹤、海底捞、居然之家、南 7 - 11、重庆百货、百果园、波司登、天虹、三得利、绝味、名创优品、NielsenIQ、电通等。
这些大模型生态联盟涵盖了多个行业和领域,为豆包大模型的应用提供了丰富的场景和机会。通过与各行业的合作,豆包大模型能够不断优化和改进,为用户提供更加优质的服务和体验。
四、未来展望字节版 Sora 的出现无疑为 AI 视频生成领域带来了新的活力与希望,但同时也面临着诸多挑战。然而,其潜力巨大,未来发展前景广阔。
从技术层面来看,虽然目前两款视频生成大模型已经取得了显著的突破,但 AI 视频生成技术仍有很大的发展空间。例如,如何进一步提高视频的画质和保真度,如何生成更长、更复杂的视频内容,以及如何更好地处理视频中的逻辑和叙事等问题,都需要不断地探索和创新。随着技术的不断进步,字节版 Sora 有望在这些方面持续演进,为创作者提供更加优质的视频生成服务。
在应用场景方面,字节版 Sora 的潜力巨大。除了目前已经广泛应用的电商营销、动画教育、城市文旅和微剧本等领域,未来还可以拓展到更多的行业和领域。例如,在影视制作领域,AI 视频生成技术可以大大降低制作成本,提高制作效率,为观众带来更多精彩的影视作品。在广告营销领域,个性化的视频广告可以更好地吸引消费者的注意力,提高广告效果。在教育领域,AI 生成的视频可以为学生提供更加生动、直观的学习体验。
此外,随着人工智能技术的不断发展,AI 视频生成技术也将与其他技术相结合,创造出更多的可能性。例如,与虚拟现实(VR)和增强现实(AR)技术相结合,可以为用户带来更加沉浸式的体验;与区块链技术相结合,可以更好地保护视频的版权和知识产权。
总之,字节版 Sora 虽面临挑战,但潜力巨大。在未来的发展中,它将在 AI 视频生成领域持续演进,不断创新,为创作者带来更多的惊喜和启发,为各个行业的发展注入新的动力。