作者 编辑|高乐
在前段时间Sora掀起的AI生成视频内容热潮中,关于元宇宙终于将在Sora正式发布后迎来新生的讨论也甚嚣尘上。
但就像每次关于元宇宙的“变革”都雷声大雨点小一样,随着Sora正式上线的时间久久未定,这轮因大饼而短暂兴起的讨论也逐渐开始消退。
Sora等平台生成的内容究竟可以算作元宇宙吗?真正符合元宇宙内容生成需求的解决方案是什么?现阶段的AI技术又能在多大程度上推动元宇宙的发展?
一个个疑问的出现,让Sora逐渐祛魅的同时,却让元宇宙究竟需要什么样的内容,变得越来越清晰。
1 Sora,不是元宇宙的万能灵药
在最初看到Sora生成的众多视频时,其较之Runway、Pika等文生视频“前辈”们代差级别的领先,很难不震撼到观者。
其能够根据prompt直接输出最高长达60秒的视频的能力,早已被各种拆解、分析——似乎只要Sora正式发布,关于元宇宙、关于AI生成视频的众多问题都将迎刃而解。
但坦率地讲,Sora以及其同类产品在元宇宙内容生成上面临的挑战并不少——除了摆在此类产品面前的诸多现实问题外,更重要是其在元宇宙内容生成上的局限性。
先不谈这一模式在发布会等强定制化内容上的天然缺陷,文生视频首先要面临的问题就是对算力的巨大需求。
在视频领域,AI对算力的要求远超以往的大型语言模型,因为视频数据不仅包含更高的时间维度和空间维度,而且为了捕捉视频中的动态信息,通常需要更为复杂的模型结构,所以算力资源首先就成为AI视频发展的重要门槛。
除此之外,视频大模型的开发通常需要跨领域合作,涉及图像识别、目标检测、图像分割、语义理解等多种技术的整合。
而除了这些现实问题,此类产品在元宇宙内容生成上的局限性更是短时间内难以克服——最关键的问题就是,这些AI生成的视频内容是否真正符合元宇宙的定义?
元宇宙的核心体验依赖于用户的互动性和沉浸感,但Sora所生成的视频内容大多为线性且缺乏互动性,这与元宇宙追求的可互动的虚拟环境存在明显差异。
此外,元宇宙的另一个显著特点是高度的用户参与度,用户可以在虚拟世界中自由创造、交易和体验。但目前由AI主导生成的内容主要源于机器,用户的个性化创作究竟占到了多少比例,始终存在争议。同时对已生成内容的定制化修改也是一大痛点。
与舆论热度相反,目前无论是元宇宙行业还是视频创作领域,有相当一部分从业者对于Sora这类技术的期待更多是出于实用主义的考量:
如何运用现有的AI技术和资源满足市场对于元宇宙内容的需求,寻找一个真正符合元宇宙内容生成需求的低成本解决方案,而不仅仅是追求技术上的革新,才是当务之急。
2 AI驱动生成3D内容模式,成熟但不完美
回顾元宇宙内容的发展,从虚拟聊天室对虚拟世界的早期探索;到本世纪初网络技术与计算能力提升下“第二人生”等类元宇宙游戏的诞生;再到智能手机的普及和社交网络的发展下兴起的Minecraft、Roblox等提供更加丰富互动体验和创造工具的元宇宙空间,可以说技术一直在推动元宇宙内容的发展。
而如今随着AIGC的快速发展,AI开始在元宇宙的构建中发挥重要作用。作为在上一轮元宇宙发展过程中积淀下来最成熟的应用方向之一,“AI驱动生成3D内容”模式成为当下迭代最快的元宇宙内容生成模式:
以魔珐有言为例,其基础功能就是将输入的文本信息,如故事情节、描述性语言等,转换成具有高质量视觉效果的3D 视频内容:
在元宇宙新声的体验中,整个工作流很流畅,也很容易上手,只要选择好喜欢的模版,挑选一名虚拟人,再为其选择好语音,就可以根据文字内容自动生成一段包含运镜的视频; 再经过简单的编辑,如修改运镜、字幕、添加片头片尾等,就输出了上面大家看到的成片。
目前,以魔珐有言为代表的“AI驱动生成3D内容”模式已经能够实现三维动画、 三维超写实形象、三维运镜、声音的AIGC化,从而实现视频的一键生成,现阶段的已经能满足用户对元宇宙3D内容的基本需求。
而这背后的支撑则是魔珐科技在AI和深度学习方面的技术积累:通过AI学习,自动化生成可用性较高的、符合文本描述的场景、人物和动作。
魔珐有言团队向元宇宙新声表示,团队下一步将努力实现“AIGC everything”,在后续版本整合文本大模型,实现文本的AIGC;预计在今年的6、7月份,产品就将实现3D虚拟人的AIGC。未来随着数据的积累,还会实现场景、包装等的AIGC,真正实现“AIGC everything”。
面向未来,不论是更侧重于元宇宙2D内容的生成的“纯AI驱动文生视频”模式,还是更侧重于3D内容的生成的“AI驱动生成3D内容”都有着很大的发展空间,但着眼当下,两种模式都存在着一定局限。
3 路径之选 交给未来
前者内容缺乏前期可控制性与后期可定制性,后者则存在一定套路性,很难有超出预想的内容生成。同时二者虽然在不同领域都有着更具针对性的应用,但距离元宇宙真正需要的内容生成模式依然有着较远的距离。
面对这样的差异与潜在的变革,魔珐有言团队选择继续探索元宇宙3D内容的AIGC路径——而这一路径的关键挑战在于,如何把所有环节全面AIGC化。
在魔珐有言“AIGC everything”的规划中,团队计划现阶段先将最难的部分AIGC,其他部分模板化和UGC库的方式去做,最终实现AIGC everything。
这路径的优势在于,生成的视频具备内容可控性、可编辑性及确定性。3D视频的生产过程就是对真实物理世界的还原,也是对视频拍摄、视频后期两大环节的还原。与此同时,开放部分人工编辑则可以解决视频可控性、可编辑性问题,且可以生成任意时长,这种模式尤其适合以人为核心的高密度信息传达场景。而另外一种技术路径,即通过海量视频数据的训练生成新的视频,其优势在魔珐有言团队看来是训练数据更多,更易得。
但其中的挑战也很多,比如2D数字人,本质是视频片段重复+唇形的AIGC。缺乏3D空间呈现,且数字人服装衣着等无法被替换。这类产品后期发展非常受限,价格低,质量一般,商业化的路比较艰难。
同时目前AI文生视频领域的代表产品,如pika、runway和sora等,很大的挑战在于生成视频内容的不可控、不具备确定性,同时不可编辑,也没有产品化。这就导致这些视频很难被创作者应用到视频制作中,也很难应用到元宇宙的3D场景之中。
魔珐有言团队表示,即便未来Sora可以产品化应用,它也更适合生成创意类视频。Sora无法生成用户使用量极大的“高信息密度”,并且“内容需要精准控制”的视频内容。比如产品发布会、汇报视频、产品介绍视频、培训视频等等。
虽然两种路径的不同优劣目前依然左右着众多元宇宙产品团队的选择,但有一点是确定的,那就是元宇宙内容必将会被AI深度介入。
面对这样的未来,魔珐有言团队表示:
3D内容是一种更高级元宇宙的形态。3D虚拟人是元宇宙世界必备要素,是这个3D世界的基础设施。在AI时代下,借助AIGC技术可以让3D内容被高质量、高效率、规模化、低门槛、低成本地打造,通过与VR/XR技术的协同实现软件与硬件的结合,将加速元宇宙时代的来临。
而在这条不可阻挡的元宇宙发展之路上,究竟是“纯AI驱动文生视频”模式能后来居上,还是“AI驱动生成3D内容”模式愈发智能,亦或是两种模式不断交融,形成合力,推动元宇宙内容模式的变革?
答案只能交给未来。
文心一言 盘古大模型说了算[点赞][点赞][得瑟][得瑟]