易思态申请基于大语言模型的语音识别专利,提高语音识别准确度

金融界 2024-12-21 20:50:30

金融界2024年12月21日消息,国家知识产权局信息显示,深圳市易思态科技有限公司申请一项名为“基于大语言模型的语音识别方法、装置、设备及介质”的专利,公开号CN119152858A,申请日期为2024年11月。

专利摘要显示,本发明公开了基于大语言模型的语音识别方法、装置、设备及介质,该方法应用于管理服务器,包括将接收到的实时输入的音频流输入预设的流式识别模型,以得到相应的一阶段语音识别文本;根据所确定的断句点将音频流按时间顺序依次分割成若干段子音频流,并将所有的子音频流依次输入至预设的第一语音识别模型以得到对应的二阶段子语音识别文本;将与不同的第一断句点相关的二阶段子语音识别文本分次输入预设的大语言模型,以得到多个相应的修正后二阶段子语音识别文本,以得到与所接收到的全部音频流相应的目标语音识别文本。本方法可提高语音识别的准确度,通过大语言模型对断句位置进行修正和优化,提高了语音内容的还原度。

本文源自:金融界

0 阅读:2
金融界

金融界

财经媒体、互联网金融、财富管理