即梦半斤可灵八两？字节、快手视频AI正面交锋：理解、捕捉和想象都有差异

字节、快手，两位短视频巨头在AI领域里迎来了正面交锋。

11月8日，字节跳动旗下的AI内容平台即梦AI宣布，由字节跳动自研的视频生成模型Seaweed面向平台用户正式开放。

据字节方面介绍，本次开放使用的豆包视频生成模型Seaweed是该款模型的标准版，仅需60秒即能生成时长5秒的高质量AI视频，领先国内业界3至5分钟的所需生成时间。

《每日经济新闻》记者在对即梦、可灵的初代版本和最新版本进行实测时也发现，迭代后，两款产品在视频生成效果上均有多方面、不同程度的提升，可灵在空间布局和画面细节呈现上更为准确，且对生成内容效果的调节更具灵活性、便捷性；而即梦在生成时长和视频风格上有优势。

一位大模型技术人员向《每日经济新闻》记者表示，视频生成模型要实现生产内容的不同“画风”是很难做的，“技术之外，还主要看数据源的丰富程度”。

当短视频进入AI时代，字节和快手两员猛将下场，谁将拔得头筹？

初代VS迭代：半年时间，即梦、可灵更新了什么？

伴随字节自研视频生成模型Seaweed开放使用，国内视频生成模型大比拼里最具看点的一对——即梦、可灵终于正式交手。

它们都承载着理解物理世界，在衍生“真实”的同时尽可能放大想象的“AI造梦计划”，但对于自身而言，即梦和可灵也都肩负字节和快手又一番商业化前景开拓的重任。

事实上，即梦与可灵都在短短不到一年的时间，完成了数次迭代。即梦3月底开启视频生成功能内测，半年后，字节发布了豆包模型家族的两款视频生成模型Seaweed和Pixeldance，并通过即梦AI、火山引擎小范围邀测，至如今Seaweed面向平台用户正式开放。

工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者表示，即梦使用的新模型生成速度有所提升，给用户的生成体验更好了，“即梦AI目前在国内生成领域，还是比较领先的”。

可灵在6月“出生”后一鸣惊人，发布至今经历了十余次更新，包括发布图生视频功能以及1.5模型的上线等重要更新。截至目前，可灵拥有超过360万用户，累计生成3700万个视频，并在近期正式上架独立App（应用软件）。

《每日经济新闻》记者选取了OpenAI官方公布的5条Sora视频提示词（东京街头的女士、太空人、无人机视角的海岸、3D动画的小怪物、云端读书的年轻人）分别测试即梦和可灵的初代版本和最新版本，纵向对比两个视频生成模型的视频效果。

对比即梦最初版本和最新版本生产的视频效果后，我们发现，即梦有两部分更新较为明显：一个是在动态的“人事物”表现上，动作的捕捉和连贯性均有较为明显的提升；另一个是画面风格的差异化呈现也有比较大的进步。

以“东京街头的女士”为例，初代即梦塑造的人物动作僵硬，特别是在腿部、脚部动作的捕捉上，整体呈现的效果是模糊和扭曲的。迭代后的新版即梦，人物动作自然流畅，脚部动态的细节处理更清晰、更符合真实世界的逻辑。

从画面风格的差异化上看，版本更新后的即梦画风区分度更高，无论对真实世界画面，还是超现实画面的描述上，都做出了不同风格呈现。

这一点在“云端读书的年轻人”视频生成的效果上对比明显。初代即梦将这一超现实画面做了完全动画风格的处理，而新版即梦对人物的呈现更倾向写实风。

“太空人”的视频生成效果也是如此，初代即梦生成的太空人“游戏建模”感较重，而新版完全写实。

初代可灵和数次迭代后1.5模型的可灵，视频生成效果提升更加明显。变化之一就是空间布局和画面细节的呈现更精致。在“无人机视角的海岸”生成效果上，能够看到在空间布局上，画面更具纵深感，空间布局更加复杂，房屋、马路等细节设置也更丰富。

即梦PK可灵：理解、捕捉和想象都有差异

两个模型在迭代后，生成效果都更加稳定，画质也更优，流畅度和细节处理都更经得起推敲。不过，它们在语义理解、关键词捕捉和放大，以及创意想象力和创意相关性的平衡上还是有明显区别。

我们横向对比，将最新版本的即梦与1.5模型可灵，对5条Sora视频提示词（东京街头的女士、太空人、无人机视角的海岸、3D动画的小怪物、云端读书的年轻人）的呈现进行比拼。

语义的理解和关键词的捕捉，让即梦和可灵的视频呈现有所不同。

在“无人机视角的海岸”视频中，即梦对提示词中“带有灯塔的小岛”进行了相对模糊化的处理，而无论是可灵还是Sora，这一画面的重点都是“小岛”。而在对“海岸公路”的描述中，即梦的设置并不符合真实世界的逻辑。

而在“太空人”的视频效果上，即梦对描述中的“冒险”并未进行描述，再次生成后，手拿咖啡骑着摩托的太空人也忽视了“冒险”的设定。可灵则通过人物的表情以及运镜强调里“冒险”。不过，即梦和可灵都相对忽视了“电影预告片”这一设定，对比之下Sora的“太空人”视频更有电影感。

在“3D动画的小怪物”视频生成中，即梦的小怪物设定与动画电影《怪物公司》里的角色“萨利”几乎相同。而提示词中有关小怪物的部分描述，即梦的呈现也相对不甚准确，比如“短毛”设定的执行。此外，在艺术风格的呈现上，提示词着重强调了“光照和纹理”，即梦的执行弱于可灵。

而在“东京街头的女士”视频中，即梦在多主体复杂交互的呈现上，效果相对于可灵，表现不佳。无论是对画面主体的“女士”还是空间描述上都相对准确，但画面中的行人普遍进行了模糊处理，近景中的行人则出现扭曲变形。

不过，即梦AI官方透露，近期，Seaweed和Pixeldance两款视频生成模型的Pro版也将开放使用。Pro版模型会对多主体交互以及多拍动作连贯性上进行优化，同时攻克多镜头切换的一致性等难题。

在功能与体验上，经过数轮迭代后的可灵，在生成视频时，有“创意想象力和创意相关性”参数的调整，因此可以进行平衡调整。对于不希望呈现的内容，可灵也可以设置，比如模糊、拼贴、变形、动画等。生成操作更灵活，效果可调整。

即梦生成视频的操作更加便捷。此外，经测试，即梦视频生成时间更短，Sora的5条提示词的视频生成时间，每条都不超过半分钟。而1.5模型的可灵生成10秒高质量视频则需要耗时10分钟以上。

不过，需要注意的是，上述即梦、可灵生成的视频，均由记者测试生成，不同版本、描述的细节，都会造成视频生成效果的差异。并且，目前Sora仍未开放，所生成视频均为官方发布版本，后续开放，用户实际测试效果与官方视频可能存在一定的差异。

AI视频生成领域混战，何为胜负手？

对于字节、快手这两大短视频巨头而言，要在AI视频生成领域中进行较量，对手还远不只彼此。

例如，11月8日，“AI六小龙”之一的智谱对其视频生成工具清影进行了新升级。值得关注的是，升级后的清影支持任意比例的图像生成视频，并且具备多通道生成能力，同一指令或图片可以一次性生成4个视频。此外，新清影可以生成与画面匹配的音效，该音效功能将在本月上线公测。

其中已有初露锋芒的玩家出现。

8月31日，MiniMax发布了其首款AI高清视频生成模型技术abab-video-1，上线首月便捷报频传。MiniMax官方公众号披露，在视频模型上线海螺AI的首月，海螺AI网页版访问量增速超800%，用户覆盖全球超180个国家和地区，产品连夺AI产品榜（web）9月全球增速榜和国内增速榜两榜榜首。

北京市社会科学院管理研究所副研究员王鹏向《每日经济新闻》记者指出，目前国内外AI视频产品都处于快速发展阶段，国外Meta、Google等科技巨头都在积极布局AI视频领域；国内方面，快手可灵、即梦AI等产品也在不断迭代升级，提升用户体验和商业化能力。

同时，东吴证券在今年8月发布的研报也指出了国产AI视频大模型的迭代、落地发展之快、竞争之激烈——技术层面，新模型生成时长、分辨率、帧率上快速提升，缩小了与Sora之间的差距；产品方面，许多新产品和模型升级面向全体用户开放，部分已应用于微短剧创作，国内公司在用户开放和商业化落地方面进展迅速。

在商业化可能性方面，该份研报中提到，在AI渗透率为15%的中性假设下，中国AI视频生成的行业潜在空间为3178亿元；在全AI模式下，电影、长剧、动画片和短剧的制作成本，相较传统模式将下降超95%。

庞大的潜在市场规模和降本增效的“超能力”也能从可灵的使用数据上窥见一二。

在10月举行的“2024中国计算机大会”上，快手副总裁、大模型团队负责人张迪透露，自今年6月发布以来，快手可灵AI已有超过360万用户，累计生成3700万个视频以及超过1亿张图片。

盘和林在接受《每日经济新闻》记者采访时表示，可灵背靠快手，拥有流量支持，所以商业化进程很快，“AI视频产品还是要背靠互联网平台，有流量才有商业潜力”。

相似的是，字节也将视频模型的商业化放在了任务单前列。在今年9月推出两款视频生成模型时，火山引擎总裁谭待曾公开表示，新款豆包视频生成模型“从一落地就开始考虑商业化”，使用领域包括电商营销、动画教育、城市文旅和微剧本。

“AI视频将在B端和C端展现出不同的商业化潜力。”王鹏认为，面向B端，AI视频可以为企业提供更加高效、低成本的视频制作和分发解决方案；在C端，AI视频可以满足用户对个性化、高质量视频内容的需求，还能与电商、广告等行业相结合，实现更加精准的营销和变现。

不过对于商业化，也有如MiniMax创始人闫俊杰这般的想法：“在目前阶段，最重要的东西还不是商业化，是技术能达到广泛‘可用’的程度。”但毫无疑问的是，在两位短视频巨头下场、初创独角兽“另辟蹊径”，以及不一样的商业化节奏等因素的共同作用下，这场在AI视频生成领域的赛跑已越发有看点了。