在前面四期,紫光展锐针对M6780的显示技术进行了系列揭秘。虽名为“智能显示芯片”,但M6780的魅力远不止于超高清智能显示,更有智能语音交互功能,助力打造数字世界的交互新体验。
智能语音技术是一种基于人工智能和语音识别技术的创新领域,它使得智能终端能够理解和处理用户的语音指令及交流。在智能家居和物联网领域,随着智能家居设备的普及和用户对便捷交互的需求增加,智能语音技术成为人们控制设备、查询信息、实现家居数字化的主要方式之一。
紫光展锐M6780从用户角度出发,在智能语音技术领域进行技术创新,带来了全面的体验升级!
完整端侧智能语音解决方案-让交互“更智能”
语音助手如今已是智能终端的标配,M6780作为紫光展锐首款智能显示芯片集成了完整端侧智能语音方案。通过紫光展锐自研的多麦克风阵列分离降噪、智能语音唤醒识别、端侧命令词识别等技术,让芯片可以听得清、听得懂、能执行。
阵列分离降噪技术可以实现对外界干扰噪声和回声的抑制消除,让设备“听得清”;智能语音唤醒识别技术,确保设备“听得懂”。该方案(详见图二)完全集成在端侧,相对于云端唤醒识别算法,交互延迟更低,无需云端计算资源节省成本,且无隐私风险。
多麦克风阵列分离降噪技术
在日常生活中,当电视正在播放电视节目,如果用户想语音控制电视,在嘈杂环境下设备如何才能够听清用户指令?这便需要回声消除技术——针对电视多扬声器、大音量的特性,紫光展锐研发出多通道立体声回声消除技术和自适应残留回声抑制技术,共同保证双工交互场景的成功率。
针对家居场景中,噪声类型多、混响大、拾音距离远信噪比差的问题。紫光展锐将盲源分离和波束形成技术深度结合,实现了两者算法短板的互补,兼容了二者的优势。即使在多干扰的嘈杂环境也可以保障用户流畅交互。
M6780搭载了完整的声学前端阵列分离技术,能够解决噪声、回声和混响对用户交互体验的影响。经专业实验室测试,紫光展锐自研的声学前端系统使得噪声场景下唤醒率提升平均在25%左右,特别是低信噪比场景下,唤醒率提升明显。在回声场景下,唤醒率平均提升90%左右,达到了业界先进水平。
双级唤醒技术
语音唤醒作为语音交互的门户,需要24小时不间断运行(always on),需要保证高唤醒率、低误唤醒率,同时要求具有较低的计算和内存开销,以满足低功耗、低成本需求。为实现高性能、低功耗,展锐采用两级唤醒策略:
第一级唤醒模型为超轻量级,参数量仅为50k左右,部署在协处理器。当开启语音唤醒功能,一级唤醒处于always on状态,实时监测音频流中是否包含唤醒词。这个阶段只需要非常低的计算资源,因此在长时间运行的过程中能够有效地减少功耗,同时也能保证一个较高的召回率水平。
第二级模型建模粒度更细,计算量也更大,部署在主处理器,只有在一级唤醒网络检测成功后才会触发。该级唤醒能够压制从一级唤醒过来的几乎所有虚警,只有该级唤醒词识别成功后才会触发后续的语音响应。两级唤醒策略可以合理地使用SoC资源,在资源消耗和唤醒性能之间达到一个较好的平衡。
端侧命令词识别技术
唤醒只是语音交互的第一步,紧随而至的控制指令识别才是交互需求的目的。语音识别控制作为语音交互的核心诉求,需要满足低延迟、高准确率等,否则易降低用户使用语音助手的意愿。
紫光展锐M6780支持电视常用热词识别,即使在无网络的情况下,也可以实现对设备基本操作的控制。命令词识别过程中通常面临集内互为相近词的误识问题,例如“上一频道”和“下一频道”,这对于准确率的优化提升非常不利,而该问题对用户体验影响非常关键。因此紫光展锐在模型的区分性训练和解码优化策略上都针对性地提出了多种创新方案,在保证识别率的同时,集内相近词误识降低了48%。
同时,紫光展锐设计了“一语即达”one-shot方案(唤醒词和命令词一起说,不需要等待中间唤醒反馈),实现了更自然的人机交互方式。为了更贴合用户实际使用电视的习惯,我们也增加了设备“延时聆听”功能,用户仅需一次唤醒,在一定时间内实现多次交互控制的需求。
噪声场景实验室唤醒性能对比图
回声场景实验室唤醒性能对比图
紫光展锐M6780智能语音方案,在听音室客观条件下安静场景唤醒率98%、带噪场景综合唤醒率90%以上,虚警控制在1次/24h以下。命令词识别也实现了安静场景96%、带噪场景90%的识别率的高性能。在于不同竞品的对比测试中,M6780方案综合唤醒率排名位于前列,达到业界领先水平。M6780智能语音系统凭借优异的前后端音频算法以及软硬件实现,让语音交互“更智能”。
作为世界领先的平台型芯片设计企业,紫光展锐坚持以技术创新为核心,全力提升产品、技术能力,强化公司核心竞争力,推动公司跨越式发展,为产业和社会创造价值,用科技之光照亮幸福生活。
文章转自紫光展锐