一句话,就能生成能“走进去”的3D世界! 各种梦幻般的场景,什么家中游泳池、大平层、海底家园,都能身临其境体验了。 这就是慕尼黑工业大学提出的WorldExplorer,不同于以往只能“站在原地看”的3D生成方法,WorldExplorer实现了真正的空间探索能力,背后有三大关键机制: WorldExplorer技术上的几大步骤包括: - 全景初始化:用文本生成4张外向图像,通过单目深度估计和图像修复技术,再生成4张补全视图,构建一个完整360°场景框架。 - 迭代式视频拓展:用摄像头引导的视频扩散模型,沿预设路径从不同初始图出发,生成一批短视频片段,探索场景内部和物体周围。每次生成都依据历史图像选取最相关的视角进行条件控制。 - 3D建模优化:将所有图像输入Gaussian Splatting优化器,先通过VGGT算法构建稀疏点云初始化,再进行相机对齐,最终生成可实时渲染、可自由漫游的完整3D场景。 进一步来说,每次视频生成都会参考场景记忆库中,与当前路径旋转角度最接近的5帧,外加最初的8帧全景框架。这样能确保新生成图像与历史保持空间一致性,同时提升结构连贯性。 为避免生成“穿墙”或“贴脸”画面,系统还会提前检测相机路径上是否会“撞上”物体,一旦检测到潜在碰撞,就自动丢弃该帧,从源头避免畸变与破图。 WorldExplorer的最终输出可用于实时渲染,不仅能还原复杂场景细节,还支持大范围自由移动,解决了传统文本生成3D方法中“只能在中间看”的问题。 项目主页:the-world-explorer.github.io/