近日,SpeechIOTIOBE评测(简称“评测”)第三季度结果公布,喜马拉雅自动语音识别技术(简称“ASR”)在本次评测中荣获第一名。喜马拉雅这一技术已在喜马拉雅App的“AI文稿功能”中广泛应用,为读者带来边听边看、听看一体的内容消费体验。
SpeechIOTIOBE评测是国内较为权威的行业公开评测项目,旨在客观评估并记录各个公共语音识别服务在不同领域的识别准确率,以字准确率为测试指标。该评测每个季度进行一次,喜马拉雅ASR技术在今年第三季度的评测中脱颖而出,以2.16%的超低错误率荣获冠军。参与此次评测的其他公司还包括依图、腾讯、Bilibili、阿里、微软、讯飞、百度等。
喜马拉雅ASR技术是喜马拉雅智能语音实验室所研发的一项重要语音技术,该技术可以对喜马拉雅平台中无文稿的声音内容进行语音转写,并输出相应的文字,从而便于听众更好地理解声音内容。随着语音识别功能使用率的提高,细节上的极致优化成为技术产品制胜的关键。喜马拉雅在研发时,基于WeNet开发了自研的“端到端”语音识别框架,并在数据读取、模型结构、训练方式、热词增强、部署流程等全链路进行了深度优化,不断尝试新的论文方案,融合吸收到自研框架当中,从而有效降低了错误率,达到行业领先水平。
喜马拉雅ASR技术现在已经广泛应用到了喜马拉雅App的AI文稿功能上,能有效识别无文稿声音内容,为无文稿声音内容生成文稿。同时,对于已经有原始文稿的声音内容,喜马拉雅AI文稿功能则应用超长音频与文本的对齐技术,将声音与文稿进行时间戳对轨,在声音播放的同时,对相应文字进行同步高亮,让用户能更便捷地享受边听边看的内容消费体验。
近期,喜马拉雅即将上线全新版本的AI文稿功能,全面提升用户体验,大家敬请期待。
喜马拉雅已在AI语音技术领域潜心钻研多年,并在内部专门成立了喜马拉雅智能语音实验室这一核心部门,长期专注于语音合成、语音识别、语音信号处理、编解码以及智能音效的研究和开发。除了ASR技术,喜马拉雅的TTS(语音合成)技术也处于行业前列,并已经广泛被运用于评书、新闻、小说等多种内容的制作中,正助力喜马拉雅在现有的“UGC+PGC+PUGC”内容生态之外,进一步拓展AIGC的可能性。同时,今年喜马拉雅自研的跨语言语音合成创新技术论文,以及和中国科学技术大学合作的说话人日志技术相关论文,先后两次被国际音频顶级会议ICASSP(InternationalConferenceonAcoustics,Speech,andSignalProcessing,国际音频、语音与信号处理会议)录用,展现了喜马拉雅在语音技术领域强大的实力。
未来,喜马拉雅将继续用科技赋能文化,提升内容消费体验,丰富内容生态,用技术加持声音、用声音服务生活。