金融界2025年1月18日消息,国家知识产权局信息显示,平安科技(深圳)有限公司申请一项名为“多模块协同的语音生成方法、装置、设备及介质”的专利,公开号CN119314462A,申请日期为2024年10月。
专利摘要显示,本发明涉及人工智能技术领域和金融科技领域,公开了一种多模块协同的语音生成方法,通过获取参考文本和参考语音,将参考文本转换为音素序列并生成潜在特征,将参考语音转换为Mel谱图并提取风格特征,提取基频信息,将音素序列与Mel谱图输入文本对齐模块生成对齐信息,基于对齐信息和潜在特征预测语音时长,通过基频信息预测语音的基频,将预测的时长、基频和风格特征输入解码器生成重构的Mel谱图,最后通过声码器将重构的Mel谱图转换为语音音频数据。本发明通过结合对语音时长、基频和风格特征的精确控制,使生成的语音能够更好地反映文本内容的自然节奏和音调变化,并增强了语音的韵律和表现力,从而提高了语音合成的自然度和逼真度。
天眼查资料显示,平安科技(深圳)有限公司,成立于2008年,位于深圳市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本531031.58万人民币,实缴资本531031.58万人民币。通过天眼查大数据分析,平安科技(深圳)有限公司共对外投资了4家企业,参与招投标项目273次,知识产权方面有商标信息70条,专利信息5000条,此外企业还拥有行政许可19个。
本文源自:金融界