作者 | ZeR0
编辑 | 漠影
智东西11月13日报道,今日,国内视频大模型创企生数科技发布Vidu 1.5新版本。该版本全新上线“多图参考”功能,突破了“一致性”难题,具备涵盖人物、物体、环境等融合的多主体一致性能力。
通过上传1~3张参考图,Vidu 1.5可实现对单主体100%的精确控制,同时实现多主体交互控制、主体与场景融合控制,能够无缝集成人物、道具和场景。
在拥有处理更复杂任务能力的同时,Vidu 1.5延续了其业界领先的生成效率,不到30秒即可生成一段视频。
今日上新的Vidu 1.5版本首次展现出上下文学习的能力,告别了单点微调,体现出视觉模型与语言模型一样,在经过充分的训练后,具备对上下文的深刻理解、记忆等能力。这也标志着视觉模型进入全新的“上下文”时代。
直通车:www.vidu.studio
一、三大技术突破加成,攻克“多主体一致性”难题视频生成的一个难题是“一致性控制”问题,即在不同的生成视频之间,模型往往难以确保主体的外观、特征、风格保持一致。尤其是在处理包含多个角色或物理的场景时,模型很难做到对多个主体同时控制,主体间的互动也难以保持自然连贯。
Vidu自上线以来就致力于解决“一致性”核心难题,起初具备“角色一致性”生成能力,确保了人物面部特征的一致性;9月又在全球率先发布了“主体一致性”功能,实现角色全身形象一致。此次“多图参考”进一步强化了Vidu在一致性方面的优势。
据介绍,目前除了Vidu,其他视频生成模型都无法有效控制面部一致性。少数模型通过大量相似图片的输入进行成本高昂的单点微调,才能实现基本的面部一致性。
Vidu直接提升了整体视频模型的可控性,通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。其技术突破具体体现在以下三个方面:
1、复杂主体的精准控制:无论是细节丰富的角色,还是复杂的物体,都能保证其在多个不同视角下的一致性。比如造型复杂的3D动画风格角色,在各种刁钻视角下,都能确保头型、服饰等细节一致。
2、人物面部特征和动态表情的自然一致:在人物特写画面中,能确保人物面部特征细节和表情变化自然流畅,不会出现面部僵硬或失真现象。
3、多主体一致性:Vidu支持上传多个主体图像,包括人物角色、道具物体、环境背景等,并在视频生成中实现这些元素的交互。例如,用户可以上传主体、客体和环境的图片,创建定制角色身穿特定服装、在定制空间内自由动作的场景。Vidu还支持多个主体之间的互动,用户可以上传多个自定义角色,让它们在指定空间内进行交互。此外,Vidu支持融合不同主体特征,例如将角色A的正面与角色B的反面无缝融合,创造出全新的角色或物体。
据生数科技分享,以上这些能力目前业界其他视频模型均无法实现。
二、省去“炼丹”环节,一款“LoRA终结器”上述突破性的工作源自于Vidu 1.5背后基础模型能力的全面提升,而非业界主流的LoRA微调方案,无需专门的数据采集、数据标注、微调训练环节,一键直出高一致性视频。
此前LoRA微调一直是业界解决一致性问题的主流方案。LoRA(Low-Rank Adaptation)方案,即在预训练模型的基础上,用特定主体的多段视频进行微调,让模型理解该主体的特征,从而能生成该主体在不同角度、光线和场景下的形象,保证其在若干次不同生成时的一致性。
比如创作一只卡通狗的形象,想生成连续一致的视频画面,但模型在预训练过程中并没有学习过该形象,所以需要拿卡通狗的多段视频,让模型进一步训练,直到认识这只卡通狗长什么样。
但通常LoRA需要20~100段的视频,数据构造繁琐,且需要一定的训练时间,通常需要数个小时甚至更久的时间,成本是单次视频生成的成百上千倍。
此外,LoRA微调模型容易产生过拟合,即在理解主体特征的同时,也会遗忘大量原先的知识。这导致对于动态的表情或肢体动作的变化,很难做到有效控制,容易产生僵硬或不自然的效果。在复杂动作或大幅度变换时,微调模型也无法很好地捕捉细节,导致主体特征不够精准。
因此,LoRA主要适用于大多数简单情形下的主体一致性需求,但对于高复杂的主体或问题场景,需要更多的微调数据和更复杂的模型微调策略。
而Vidu 1.5基于通用模型能力的提升,仅靠三张图就实现高可控的稳定输出,直接省去“炼丹”环节,堪称是“ LoRA终结器”。
三、视觉模型进入“上下文时代”要实现类似的多主体一致性生成任务,需要模型能够同时理解“多图的灵活输入”,不仅是数量上的多图,还要图片不局限于特定的特征。
这与语言模型的“上下文学习”能力具有显著的相似性。
在语言模型中,理解上下文不仅仅是处理单一的文本输入信息,而是通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。
同样地,视频生成或多图生成任务中,模型需要能够理解多个输入图像的准确含义和它们之间的关联性,以及能够根据这些信息生成一致、连贯且有逻辑的输出。
秉承通用性的理念,Vidu有和大语言模型一致的设计哲学:
1、统一问题形式:大语言模型将所有问题统一为(文本输入,文本输出),Vidu则将所有问题统一为(视觉输入,视觉输出);
2、统一架构:大语言模型和Vidu均用单个Transformer统一建模变长的输入和输出;
3、压缩即智能:大语言模型从文本数据的压缩中获取智能,Vidu从视频数据的压缩中获取智能。
通过不断扩展上下文长度,Vidu从1.0迭代到1.5后出现了智能涌现效应,模型能够通过视觉上下文完成大量新任务的直接生成。从单输入主体的文/图生视频,到多输入参考信息,未来生数科技还将以更长、更丰富的上下文作为输入,进一步提升模型的能力表现。
结语:视觉模型将具备更强认知能力当前的视觉模型尽管在文本生成视频等方面取得显著进展,但与语言模型在深层次智能上的突破相比,尚存在较大差距。
过往的视频模型如果想实现诸如一致性生成的能力,需要针对每一个场景设计相应的模型进行微调,而无法像语言模型一样,通过上下文学习基于少量的示例或提示快速适应新任务。
Vidu 1.5则展现了出色的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力,还能够在生成过程中进行记忆管理。
同时,更出色的一致性控制,使Vidu 1.5在创作细腻、逼真的角色时具有显著优势,也进一步降低了对生成视频内容进行后期加工优化的负担。