2022年底,我们见证了ChatGPT的横空出世之后,紧接着文心一言、通义千问等等AIGC产品连连开花结果。随着视频生产工具的不断变化,在拍摄成本越来越高的情况下,用AIGC来替代复杂的拍摄、剪辑、制作是一个显而易见的趋势。但是传统的2D文生视频工具一个最大的痛点就是不可控。
所以,AIGC也将目光放在了更有挑战性的视频生成和3D视频生成上,就像“人人都能成为开发者”那样,无需拍摄、一键上手才是好应用的体现。
一、从Sora说起,AI视频与难以克服的局限性说实话,OpenAI春节期间官宣的Sora demo的确十分震撼,虽然现阶段还没有产品和应用,没办法实际体验感受其功能性,但还是引起各个行业的广泛关注。当然,从某种方面来讲,它并不是一个“现象级应用”。什么是现象级应用,就是类似于微信、抖音,或者说是妙鸭相机,不仅仅是科技圈的“自嗨”,而是妇孺皆知,连我退休的老爸和还上小学的外甥女都愿意“玩一玩”,然后发个朋友圈。虽然Sora以及2023年诞生的一系列AI视频模型或者应用代表了一定的发展阶段,但是AI视频始终存在难以克服的局限性,比如时空一致性问题、内容的可控性和可编辑性、视频时长的限制以及产品完整性等等。举个例子,比如Sora的这条例子(prompt:篮球穿过篮筐然后爆裂),可以看到篮球架爆炸后,球网却又恢复原样。看起来模型对物理世界并不是很了解。
尤其是产品完整性一直是成为“现象级应用”最大的一个关卡,也就是说即使模型很强大,但对于用户来说还不够“一键生成”。对于视频效果以及整个视频行业来说,最终的价值无非三个字【用起来】。也就是说,提出一个要求,AI视频可以准确的理解并制作出相应的内容,期间可以根据反馈和沟通逐渐调整,并且可以给出建设性的意见和方案。当然,这是视频制作团队的工作流程。什么时候AI视频完全可以实现这个流程,也就是什么时候AI视频做到了绝对成熟。因此,如何提升AI视频生成产品的可控性、可玩性和可用性,让它更贴近用户的需求,更准确地生成符合预期的内容,才是AI视频的发展方向。
二、AIGC的新赛道:一站式生成3D视频相比于大多数文生视频的产物都对真实的物理世界难以很好理解,最终生成的内容也不可控。而有言由于其具有【可控性】直接从AI视频赛道里横空出世。其生成的3D视频不仅可以实现“3D虚拟人动作、表情、以及视频镜头、灯光的AIGC化”,还可以让用户根据自己的需求去自由修改内容,再基于实时引擎输出视频
相比之下,3D视频在内容的多样性和表现的多元性方面具有显著优势,但制作起来并非易事。与随处可见的2D视频相比,3D视频的制作面临诸多挑战,其中数据的获取和处理是首要难题。而魔珐之所以能够推出“有言”这款产品,主要得益于其在AIGC领域的技术优势和3D数据的积累。
有言的优势在于能够提供高度可编辑和可控的视频内容,确保其物理准确性,特别适合那些对视频内容精准度有高要求的应用场景(这正是现阶段sora及其他文生视频产品所达不到的)。此外,有言还能直接文生3D内容,这得益于魔珐公司在AIGC全栈技术方面的深入研究和多年积累的高质量3D数据。用户可以轻松地对生成的视频进行细致的调整,包括文案、拍摄角度、镜头运动等,从而制作出既专业又个性化的3D视频作品。两个字:真香。
三、实用优先:如何秒get一条视频目前,视频已经成为互联网上最重要的媒介,视频内容占据了超过 80% 的互联网流量。对于传统的视频制作流程来说,首先人们需要选择拍摄场地、演员等,然后进行场地的布置、人员的妆造等,一切准备就绪之后在导演的指导下进行拍摄,由于诸多因素,很多视频需要进行多次拍摄才能达到满意的程度,所以一个视频的前期制作成本是非常高的,即使一些短片也不例外。在AIGC飞速发展的今天,有言让视频制作实现了免拍摄的过程。此外有言还可以实现视频的一站式制作,视频的剪辑、后期包装以及渲染等都可以一站式完成,免去了用户在多个平台切换的困扰。
最令人出乎意料的是,这么一款功能强大的一站式视频生成制作平台,使用操作起来也是非常简单便捷,即使是没有视频制作基础的用户,也可以轻松上手。有言的整个视频制作过程大概分为模板选择、人物与素材选择、脚本编辑、场景编辑、视频渲染、视频包装以及视频导出几大部分。
其中模板选择中涵盖多种演播室以及行业和应用场景,基本覆盖了绝大多数用户的视频需求
当然,我们也可以自定义素材,有多种演播室、人物可以选择,同时也可以上传素材。
在做完基础的选择之后,我们就可以来编辑自己的视频脚本,也就是人物的“台词”,通过回车键来分割,每一段则对应着视频中的一个片段。
其实到这里,我们就已经简单的完成了“视频拍摄”这一步骤了,从实际体验可以很直观的感受到,相对于我们现场耗费人力物力去拍摄,3D视频生成更加省时省力。接下来我们可以对视频进行进一步的场景编辑,让人物的动作更加自然,让镜头的切换更加合理,有点类似于我们传统拍摄中增加主演的肢体语言以及运镜。在镜头方面,有全景、近景、中景、全屏、特写,作为一个不太资深的影迷来说,我认为这基本上包含了主流的运镜手法,真正体验了一把自己做导演的感觉。
人物动作方面,这里同样有多种肢体语言可以选择,让演讲人看起来更加自然。
在声音方面也有多种风格可以选择,当AI发音出现偏差时,我们可以通过人工干预进行修正,除此之外,还可以调整说话停顿的间隙,让其听起来更加自然。
前面我们提到是简单完成“视频拍摄”的步骤,到此我们可以说是完全完成了“视频拍摄”的步骤,不需要专业的摄像机、演员、场地、导演等等,只需要一台电脑,就很很轻松的完成视频的拍摄制作。在后面的制作就基本等同于我们常说的视频剪辑了,可以对字母、画面、背景音乐等等进行操作,这里就不展开赘述了,操作方法跟市面上主流的视频剪辑软件类似,可以轻松上手。
总的来说,有言大幅度降低了视频制作的门槛,给视频零基础的用户提供了踏上这条赛道的机会,不需要多么复杂的操作,除了脚本编辑外,其他大部分时间只需要数据点点点即可完成视频制作与剪辑。
AI技术正在革新视频制作行业,在拍摄成本越来越高的情况下,Filming Less、文生视频的发展前景备受期待。技术成熟与创新将推动AI算法变得更加精细,能够生成更加逼真和多样化的3D内容,满足用户对高质量视频内容的需求。虽然这一行业还面临着用户对视频真实性的期望、观众对非真人拍摄内容的敏感性等挑战。但随着技术的不断成熟,文生3D内容有望在视频制作、游戏开发、电影制作、虚拟展示等多个领域发挥更大的作用,为创作者提供强大的新工具。