2025年3月,Stability AI 发布了其生成式 AI 领域的最新成果——Stable Virtual Camera(稳定虚拟相机,简称 SVC)。这项技术通过多视角扩散模型,仅凭单张或多张 2D 图像即可生成具有真实深度和透视效果的沉浸式 3D 视频,无需传统 3D 建模所需的复杂计算或专业技能。

核心功能亮点:
灵活输入与动态路径:支持 1 至 32 张图像输入,用户可自定义相机轨迹(如手动设定角度),或选择预设路径,包括 360° 旋转、螺旋、变焦(Dolly Zoom)、平移等 14 种效果,生成丝滑流畅的视频。长视频生成能力:当前版本可输出最长 1000 帧的视频,并支持方形(1:1)、竖屏(9:16)、横屏(16:9)三种宽高比。零样本生成与 3D 一致性:无需训练特定场景数据,模型通过神经渲染技术和多视图一致性优化,确保生成的视频在视角切换时保持真实连贯。
Stable Virtual Camera 的核心技术基于 多视角扩散模型,结合了传统虚拟相机的控制能力与生成式 AI 的创造力。其工作流程分为三步:
深度感知与图像解析:模型从输入图像中提取深度信息,构建场景的 3D 结构。视角生成与路径模拟:通过扩散模型预测不同角度的画面,模拟真实相机的光学特性,生成新视角。动态合成与优化:将多帧画面无缝拼接成视频,并优化闪烁、伪影等问题,提升视觉一致性。与传统方法依赖复杂 3D 重建不同,Stable Virtual Camera 的生成过程更高效,甚至能以单张图像为起点,大幅降低创作门槛。

尽管技术前景广阔,Stable Virtual Camera 仍存在以下局限性:
复杂场景处理不足:包含动态纹理(如水面、火焰)、人物或动物的图像可能导致视频闪烁或细节失真。视角差异问题:若目标视角与输入图像差异过大,可能出现画面断裂或透视错误。研究阶段限制:当前版本为“研究预览版”,尚未开放商业用途,且处理高分辨率图像时对硬件要求较高。开源生态与未来展望Stability AI 延续其一贯的开源策略,已将模型代码、权重和演示平台发布于 GitHub 和 Hugging Face,供研究者和开发者自由探索。结合公司近期与 Arm 的芯片合作,未来可能进一步优化计算效率,推动技术落地。
AI 重构视觉叙事的下一站Stable Virtual Camera 的发布不仅是 Stability AI 在生成式 AI 领域的又一里程碑,更预示着 3D 内容创作将从专业领域走向大众化。尽管仍需克服技术瓶颈,但其“以简驭繁”的核心理念,已为影视、教育、营销等行业开辟了全新的想象空间。随着开源社区的参与和算力升级,这项技术或将成为下一代沉浸式内容生产的标配工具。