广电总局公布《数字虚拟人技术要求》报批稿

11月15日，国家广播电视总局科技司公布了《数字虚拟人技术要求》行业标准报批稿。

该文件规定了广播电视和网络视听行业数字虚拟人的技术要求，对于数字虚拟人分类、应用场景、形象、驱动技术、平台能力、安全能力提出规范要求。适用于广播电视和网络视听行业数字虚拟人的系统建设、创作和应用。

按照文件中定义，数字虚拟人即基于现实世界设计，通过计算机生成，再借助真人或计算驱动，在多模态输出设备呈现的虚拟人物。

按照人物形象分类，分为2D数字虚拟人和3D数字虚拟人；按照交互模式分类，分为非交互式数字虚拟人和交互式数字虚拟人；按照驱动模式分类，分为算法驱动型数字虚拟人和真人驱动型数字虚拟人。

数字虚拟人主要应用场景分为内容播报、交互客服、虚拟演播和内容创作等。其中内容播报包含新闻资讯播报/手语播报、电影/电视/专题片/纪录片介绍和直播带货等；交互客服包含虚拟客服、智能助手和交互问答等；虚拟演播包含综艺主持、虚拟演唱会、文娱活动和用户代理虚拟分身等；内容创作包含影视创作、视频创作、广告创作和游戏创作等。

总体技术架构包括数字虚拟人形象、算法驱动能力、真人驱动能力、平台能力和安全能力等内容。数字虚拟人形象包括2D真人、2D卡通、3D写实、3D卡通和建模技术。算法驱动包括驱动能力、合成能力和多模态能力。其中，驱动能力又分为文本驱动能力、语音驱动能力和视频驱动能力；合成能力包含语音合成能力和视频合成能力；多模态能力包含语音识别能力和自然语言处理能力。

总体要求中，数字虚拟人形象，应满足如下要求：

a) 符合场景的任务设定，在人物形象、表情、服饰等方面得体、美观；

b) 支持全身、大半身、半身不同景别姿态；

c) 形象完好，不存在扭曲、马赛克、跳帧、破损、音视频延时、口唇不一致等情况；

d) 支持装扮、服饰的更换；

e) 不存在侵犯第三方权利及法律法规禁止的其他情形。

2D真人数字虚拟人形象方面，支持真人形象复刻，形象逼真自然，语音自然流畅；支持通过照片、视频等方式生成形象，保证面部五官、肤色、牙齿、明暗等准确还原。2D卡通数字虚拟人形象，应支持2D卡通形象绘制，对特有的卡通形象进行建模；支持不同景别、姿态，形象灵动活泼，动作自然舒展。

3D写实数字虚拟人形象，应支持通过3D建模或真人扫描等方式刻画形象，头部模型覆盖面部、口腔、上下牙、舌头、独立左右眼球、眼睑、泪腺等；头部、面部、身体纹理有效区域面积高；毛发系统，如头发、睫毛、面部绒毛等纹理清晰。支持对形象的美型、加工和风格化等；支持不同角度、景别、姿态的灵活转换；支持丰富的动作类型；支持光照效果的处理，如光影、折射、反射等效果；支持人形骨骼、蒙皮建模；支持按1:1的比例，对真人进行复刻。3D卡通数字虚拟人形象，应支持3D卡通形象绘制等方式，对特有的卡通形象进行建模；支持不同景别、角度、姿态，形象灵动活泼，动作自然舒展；支持丰富的动作类型。

数字虚拟人算法驱动能力方面，应支持单一技术驱动和混合技术驱动的方式；数字虚拟人展示应支持端侧渲染，宜兼容多操作系统。

数字虚拟人视频驱动能力，应支持计算机视觉算法，基于记录面部表情和肢体动作的视频，驱动生成数字虚拟人的语音、动作、表情、口型；支持的视频包括通过摄像头记录人体面部表情、肢体动作的视频；支持实时或离线的驱动方式。

数字虚拟人语音合成能力，应支持端到端语音合成模型，支持HiFi-GAN、VAE、Diffusion（扩散模型）、Glow（流生成模型）、DurIAN等多种语音合成模型；音合成效果自然，音质音效贴近真人；实现字词级别的音量、时长的细粒度控制，实现音量、语速的调节；实现多情感高表现力的可控语音合成效果，根据文本内容自动切换合成不同情感的语音；支持针对应用场景（包括播报、解说、诗歌、阅读、客服等），生成多种语音合成风格。

数字虚拟人视频合成能力，应支持多种渲染引擎技术对数字虚拟人形象进行渲染，包括UE、Unity等；支持图像增强技术，改善视频质量和用户体验；支持视频离线合成或实时渲染合成；支持通过人脸的图像或视频内容进行视频合成；支持不同分辨率、码率的视频合成；在1080P分辨率条件下，视频合成实时率不高于1；合成后的视频流畅，支持帧率不小于25FPS。

数字虚拟人多模态能力，应发音准确，不存在漏音吞音、多余发音、音素错误、音调错误等情况；语速、停顿断句、音高、音长、音量、重音等符合自然语言发音规律；语音语调舒适；常见多音字发音正确。口型、唇形自然，与发音同步，符合发音的规律，具备饱满度和表现力。动作精准、自然，与交互语境契合，动作包括但不限于头部、肢体、全身等部位。支持实时渲染技术，支持基于物理光照和实际环境光源、相机位置、材质参数等实时计算，完成图像渲染。在交互客服场景下，支持多轮对话能力，根据上下文内容或用户的问询，进行判断选择，完成用户交互；支持通过对话树等方式，完成不同业务场景下的多轮对话流程跳转及应答。

数字虚拟人平台，应支持针对内容播报、交互客服、虚拟演播、内容创作等应用场景；支持创作不同类型的数字虚拟人；支持数字虚拟人形象的资产管理、业务服务配置及内容生产服务；支持数字虚拟人形象租赁；支持数字虚拟人形象选型、音色配置、背景空间管理、发音及动作配置、会话管理、流程管理等功能；支持多种AI模型和算法；平台生成的数字虚拟人具备多模态交互能力；具备丰富的语音及动作库；支持离线、实时的数字虚拟人生成方式；真人驱动型平台技术支持真人驱动的模式，真人驱动可以和算法驱动混合使用，相互接管。

数字虚拟人平台部署，应支持公有云部署、私有云部署或本地化部署方式；应支持多类型前端接入能力，包括但不限于PC、移动终端、大屏设备等终端接入设备，以及网页、APP、小程序、H5等应用形式，满足系统的前端兼容性；宜支持运用微服务、集群的部署方式；宜采用负载均衡、分布式数据库等技术。