阿里巴巴突然宣布开源其视频生成模型“万相2.1”,这款模型不仅号称性能超越OpenAI的Sora,还能在普通家用显卡上运行,让无数创作者和开发者直呼“不可思议”。
从技术突破到行业变革,这场开源的背后有哪些值得关注的事?
万相2.1的核心竞争力,可以用“更强、更小、更便宜”来概括。
根据权威评测集VBench的测试结果,万相2.1以综合得分86.22%的成绩超越Sora、Luma、Pika等国内外主流模型,稳居榜首。
尤其在复杂运动生成和物理规律还原上,万相展现出了惊人的能力。比如,它能精准模拟人物跳跃、翻滚等动作,甚至还原碰撞、反弹等物理场景,生成的视频几乎可以“以假乱真”。
万相2.1提供了两个版本:14B参数的专业版和1.3B参数的轻量版。前者适合专业团队开发,后者则直接“飞入寻常百姓家”——仅需一张显存8.2GB的消费级显卡(如RTX 4090),就能生成480P的高质量视频,耗时仅4分钟。
这意味着普通用户无需依赖昂贵的算力资源,也能低成本体验AI视频创作。
万相2.1首次在开源模型中实现了中英文文本的直接生成。无论是水墨风格的“福”字,还是动态海报中的标语,用户只需输入提示词,模型就能自动渲染文字效果,无需依赖外部插件。
这一功能填补了行业空白,尤其对中文创作者意义重大。
阿里此次开源并非“技术慈善”,而是瞄准了更大的生态布局。
过去视频生成技术被少数大公司垄断,普通用户要么承担高昂成本,要么受限于算力。而万相2.1的开源直接打破了这一局面。
开发者可以自由下载模型代码,在本地进行二次开发;创作者则能借助家用设备快速生成素材,甚至将AI融入短视频、广告设计等场景。
目前OpenAI的Sora订阅费为20-200美元,谷歌Veo 2的定价则高达每秒0.5美元(一小时视频需1800美元)。万相2.1的免费开源,无疑对这些闭源模型构成了直接挑战。
未来AI视频生成服务的价格可能被迫下调,进一步推动技术普及。
阿里从2023年启动“千问”大模型开源计划,覆盖语言、多模态等领域。万相2.1的加入,标志着阿里成为全球首个实现“全模态、全尺寸”开源的科技巨头。
这种策略不仅吸引开发者共建生态,也为其在AI竞赛中抢占先机。
对普通创作者而言,万相2.1的开源绝非“看热闹”,而是实实在在的红利。
借助轻量版模型,用户可以在本地尝试多种创作方向。
例如输入“体育摄影风格,骑手骑马跨越障碍”的提示词,模型能生成动态连贯、细节丰富的视频;输入“中国古典少女站在樱花树下”,则能精准还原角色表情与场景氛围。
低成本的试错机制,为个人创作者提供了探索艺术表达的绝佳机会。
万相2.1支持文生视频、图生视频、辅助视频编辑等多种任务。
用户可将静态照片转化为动态故事,或为现有视频添加特效。这一特性尤其适合自媒体、小型工作室等团队,帮助他们快速产出高质量内容。
万相2.1的代码和权重已上线Github、HuggingFace等平台,开发者可以基于此开发定制化工具。比如为电商设计自动生成产品演示视频的插件,为教育行业开发互动教学素材。
“众人拾柴火焰高”的模式,可能催生大量小而美的应用。
尽管万相2.1带来了巨大想象空间,但潜在问题也不容忽视。
AI生成的视频越逼真,滥用风险越高。例如伪造新闻、恶意营销等问题可能加剧。
如何建立内容溯源机制,将成为行业下一阶段的焦点。
虽然万相2.1降低了显存需求,但生成高清视频仍需较长时间(如5秒视频需4分钟)。对普通用户而言,硬件升级和电费成本仍是现实门槛。
开源模型的维护依赖社区贡献,若后续更新乏力,可能逐渐被闭源模型反超。阿里的长期投入意愿,将决定万相生态的生命力。
万相2.1的开源,是技术的突破,是一场创作民主化的实验。它让普通人第一次触摸到“好莱坞级”视频生产的可能性,也让AI从高高在上的黑科技,变成了触手可及的工具。
未来的视频创作,或许不再需要昂贵的设备和专业团队。
只要你有创意,一台电脑、一张显卡,就能成为故事的导演。
这场革命才刚刚开始。