腾讯混元大模型正式上线视频生成能力

12月3日，腾讯混元大模型公布最新进展：正式上线视频生成能力，这是继文生文、文生图、3D生成之后的又一新里程碑。

比如，在冲浪、跳舞等大幅度运动画面的生成中，腾讯混元可以生成非常流畅、合理的运动镜头，物体不易出现变形；光影反射基本符合物理规律，在镜面或者照镜子场景中，可以做到镜面内外动作一致。同时，模型还可以实现在画面主角保持不变的情况下自动切镜头，这是业界大部分模型所不具备的能力。

与国内外多个顶尖模型的评测对比显示，混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先，在人物、人造场所等场景下表现尤为出色。

腾讯混元生成视频大模型可以实现超写实画质、生成高度符合提示词的视频画面，画面流畅不易变形。

混元的领先能力主要源于其技术创新。其基于跟Sora类似的DiT架构，并在架构设计上进行多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循，其具备强大的语义跟随能力，更好地应对多个主体描绘，实现更加细致的指令和画面呈现；采用统一的全注意力机制，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换；通过先进的图像视频混合VAE（3D 变分编码器），让模型在细节表现上有明显提升，特别是小人脸、高速镜头等场景。

世良情感网

腾讯混元大模型正式上线视频生成能力

云海先锋