阿里云视频生成大模型万相2.1全面开源

2月26日消息，日前阿里云正式宣布，其视频生成大模型万相2.1（Wan）于25日晚间全面开源。此次开源采用了Apache2.0协议，开放了14B和1.3B两种参数规模的全部推理代码与权重，同时支持文本生成视频和图像生成视频的任务。全球开发者可以通过多个平台，如Github、HuggingFace以及魔搭社区，下载并体验这一模型。

据官方介绍，14B版本的万相模型在指令理解、复杂运动生成、物理建模以及文字到视频生成等方面表现出色。在权威评测集Vbench中，万相2.1以86.22%的综合评分大幅领先国内外同类模型，如Sora、Luma和Pika，稳居排行榜首位。而1.3B版本的万相模型不仅超越了部分参数量更大的开源模型，甚至在某些指标上接近一些闭源模型的表现。此外，该版本能够在消费级显卡上运行，仅需8.2GB显存即可生成480P分辨率的视频，非常适合二次开发及学术研究。

官方表示，自2023年起，阿里云便坚定地走上了大模型开源的道路。截至目前，基于千问（Qwen）衍生出的模型数量已超过10万个，形成了全球最大的AI模型生态家族。在视频生成领域，万相2.1通过自主研发的高效VAE和DiT架构，显著提升了时空上下文建模能力，支持无限长1080P视频的高效编解码，并首次实现了中文文字到视频的生成功能。

随着万相的开源，阿里云的两大基础模型均已实现开源，完成了全模态、全尺寸大模型的开源布局。自2025年1月以来，开源趋势逐渐成为国内外大模型领域的标配。进入2月，多家企业纷纷推出了各自的开源模型，包括字节跳动的豆包、昆仑万维的相关模型、百度的文心一言以及阿里云的通义千问系列，共同掀起了新一轮的开源热潮。

2 阅读：164