不久前,科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目,荣获2023年度国家科学技术进步奖一等奖,这是过去十年人工智能领域首个国家科学技术进步奖一等奖,对引领我国的语音产业,支撑智能制造产业出海和升级等都有重要意义。
观察者网·心智观察所日前与科大讯飞研究院院长刘聪进行了一次交流,讨论了科大讯飞最新的语音技术进展、现有语音技术与大模型的结合、国产芯片及生态建设等问题。在对话中,刘聪提到了讯飞现有多语种智能语音技术的领先优势,目前已经应用在多个产品中,支撑中国智造出海。讯飞采用国产芯片做语音模型训练,难度很大,工作开展异常艰苦,刘聪呼吁各个企业联合建设更完善的软件生态。
对话全文如下:
心智观察所:科大讯飞这次作为第一个完成多语种智能语音关键技术及产业化的单位,获得了国家科学技术进步奖一等奖。据闻,这是过去十年人工智能领域首个一等奖。请您总体上介绍一下此项目的基本情况,它的背景和意义。
刘聪:我们这次得奖项目的核心是智能语音技术,也是讯飞的初心。在这个项目历经的十年间,深度学习领域发展迅速,也代表着人工智能第三次浪潮的快速发展。在这一背景下,此次也是过去十年人工智能领域首个国家科学技术进步奖一等奖。
智能语音领域对我们一直很重要。过去十年里,我们一直强调语音作为人类最自然、最便捷的交流方式,是万物互联、人机交互的关键入口。
在人工智能领域里,多语种智能语音广受关注。讯飞虽然是从中文语音技术起家,但我们在过去十年里逐步拓展到更多语种以及方言领域当中,这是一个非常重要的跨越。
国家科学技术进步奖主要考量两大方面,一是提报项目需要有核心技术创新,代表中国从技术原创角度在世界上取得领先。另一方面,与其他奖项不同,国家科学技术进步奖特别强调提报项目的技术创新能否带来大规模的产业化落地。
从技术创新上来看,语音领域涉及合成、识别等技术,本项目主要针对智能语音关键技术产业化中攻克了多项技术难题,例如面向很多复杂场景时,会出现语音识别听不准、语音合成不自然、口语理解歧义等问题,以及当我们从中英文向多语种拓展、走向全球化的时候,出现数据资源稀缺的问题。在持续攻关中,我们提出了四个方面的关键技术创新:复杂语音信号解耦建模关键技术突破、多语种共享建模关键技术突破、语音语义联合建模关键技术突破、语音语义联合建模关键技术突破、国产异构硬件平台训练及推理加速关键技术突破。通过这些技术创新,我们解决了刚刚所说的技术难题,实现了在多个行业领域和智能设备上的应用落地。
总结来说,本项目的意义,第一在于开创引领了我国的语音产业,支撑智能制造产业出海和升级。
第二,通过支持多语言互通,助力民族团结,促进全球语音语言互通,协助“一带一路”建设。在这个过程中,我们很好支撑了北京冬奥会和冬残奥会、进博会、博鳌论坛等国家重大活动。
第三,我们一直强调自主可控,本项目整个构建了自主可控的多语种智能语音技术,以及全球的产业生态。
第四,我们认为技术也要有温度,所以本项目里面的相关技术也持续助力公益,关注关爱我们的弱势群体和特殊人群。
心智观察所:我稍微补充问一下,请问此项目的发起时间大概是什么时候?讯飞虽然是第一完成单位,但获奖团队不止是讯飞这一家。请问获奖团队的构成如何?
刘聪:这个项目开始时间大概是在2012年左右,至今差不多是一个十年左右的周期。
除了讯飞作为第一单位牵头,过去十年里在该项目上与我们有紧密合作的还有一些科研机构,如中国科学技术大学、清华大学,讯飞与这两所高校都有联合共建的实验室;还有产业链上的相关单位,如华为终端有限公司、中移(杭州)信息技术有限公司、讯飞医疗、讯飞智元等。
心智观察所:语音识别研究当中有一个非常有挑战的问题名叫鸡尾酒会效应,请问讯飞是怎么突破这个难题的?然后,能否用一些比较通俗的比喻来向公众解释一下其中的原理。
刘聪:鸡尾酒会是语音领域一个非常具有挑战性的难题,讨论的是在复杂环境下分辨声音种类的问题。人的听觉系统非常强大,例如你如果参加一个鸡尾酒会的话,周围非常吵闹,酒会里有非常多的噪声、谈话声、音乐声以及酒杯碰撞的声音。此时,如果你想听清楚谁在和你说话,你会将你的听力系统集中过去,在周围很吵的环境下专注于某一个特别定向的人发出的声音,这是人类所具备的一个能力。
在我们做语音识别、语音合成技术时,若要衡量语音识别系统的优劣,就要跟人的水平去做对比。在鸡尾酒会难题里,由于噪声很多,所以对机器来说进行精准的语音识别是非常难的。我从学生时代起就在研究通过单点技术来降噪,此后也尝试过通过多麦克风阵列来提升整个前端的效果。虽然做了很多的工作,但是都只是在循序渐进,很难彻底解决这样的问题。
此次获得国奖的项目中第一个创新点——复杂语音信号解耦建模关键技术突破,其中有两项技术能够比较好地解决鸡尾酒会问题。
我们在降噪里面的一个关键问题是要把语音里面的人声和非人声解构出来,这就叫解耦。对语音来说非常困难,因为语音是一个一维信号。在这个一维信号当中包含了很多的信息,如人声、噪声等。甚至如果再进一步细化,可能还有人声里面的说话人声音,及其音色、内容、性别等信息。
为了解决这个问题,我们首先基于深度学习的框架,针对性地对语音里每一个人的每一种属性做了针对性的建模。建模之后,我们就可以将刚才所说的噪声、人声的各类属性比较清楚地显示出来。通俗来讲,我们可以更加精细地把控语音里面原来混杂在一起的、各种各样的属性。此后,我们就可以更好地对噪声做分离处理,也可以知道语音里的声音是跟说话人还是跟噪声的声音更接近。
同时,如果我们用声学前端多麦克风阵列的多通道信号来采集语音的话,还可以对这个信号的时间、空间等属性进行分离。
这样,一方面实现了人声和噪声的精确分离,另一方面,多维度的语音属性结构可以进一步地把声音里的内容、韵律、音色等处理出来,如此可以进一步地去解决鸡尾酒会问题。过去几年,讯飞连续4届参与并获得国际多通道语音分离和识别权威赛事CHiME的冠军,充分证明我们的语音识别技术突破了更加复杂的场景。再进一步结合大模型,就是我们今年6月27日举行的讯飞星火V4.0发布会上呈现的极复杂语音转写技术,基于讯飞星火大模型的多模态能力,现场在噪声环境下三人同时说话,正常人耳难以听清,但我们做到了将每个人的声音较为准确分离,并且实时转写出来。
作为一项技术框架的创新,复杂语音信号解耦建模关键技术还可以再延伸一下,应用到语音合成上。在过去,语音合成需要一个人录制自己很多的声音语料之后才能进行合成。如果我们没有研发刚才所说的语音属性解耦技术的话,我们就很难把很多人的声音合成为一个合成声音,因为若将所有的声音全混在一起的话,可想而知会变成一个“四不像”。但是,当我们通过这项技术把每一个人的声音属性解耦出来之后,就可以把很多人的语音混在一起,训练一个合成的模型,并且能够分辨每个人的声音之间的一些共性和特性是什么。
此后,你如果希望模拟某个人的声音,只需要用这个人声音的特性以及相关的数据去建模即可。我们将这些属性进一步去建模、去控制时,如果面对一些新的发声人,可能就不再需要那么多的语音。以前语音合成需要录制一个人十个小时左右的语音,近几年只需要几分钟;目前在大模型框架之下,只需要一句话就可以了。所以,有了语音属性解耦技术,我们不仅能解决语音识别的问题,同样还可以达到对特定人更好的语音合成效果。
心智观察所:本次国奖的获奖项目为讯飞研究多年的成果,而近些年面对大模型的突然崛起,业界有声音质疑获奖项目是否被大模型的到来所颠覆。请问您会如何回应这些质疑,并请您简单讲述讯飞将如何将大模型与国奖项目相结合。
刘聪:最早的大模型技术关注的并非语音领域,包括OpenAI的ChatGPT在内的大模型大部分是文本大模型,重点在于文本。
智能语音技术更多是声学层面,但以语音识别为例,语音转变成文字的过程中牵扯到了语言模型,即文本模型的一种。以ChatGPT等为代表的文本大模型,因为它的模型更大、语料更多、长文本的建模能力更强,本身能够直接提升语音识别和语音翻译等效果。
语音合成则是反方向的,从文本到语音。当我们对文本做前端分析的时候会用到一些语言模型的技术,所以同样也会文本大模型能力的提升带来更好的效果。
其次,我们也可以进一步从文本大模型进行延伸。当有了文本大模型之后,业界开始研发一些其他种类的大模型。我们比较熟知的是从文本大模型拓展到多模态大模型,例如文生视频模型、文生图模型、多模态视觉理解模型等。当然,业界也有专门研究语音大模型的,套用文本大模型的框架来做语音大模型的框架。
虽然此次我们的国奖获奖项目并没有直接使用大模型,但是针对语音提出的一些算法创新,可以在大模型时代进一步与语音大模型进行结合。举个例子,我们刚才提到的语音属性解耦、语音信号时空分离等创新技术,本质上是对原始的语音信号进行处理之后,获得更高质量的语音编码向量。我们可以将更高质量的语音编码向量处理之后,再输入到大语言模型里,这样做会比直接把原始语音信号进行建模的效果更好,能够完成前端的预处理及预训练。
原来在多语种领域里,国际上做得最好的一般是谷歌、微软,他们有很多的多语种数据。但OpenAI在发布文本大模型ChatGPT之后,去年11月发布了Whisperv3的多语种语音大模型,效果非常惊人。讯飞则在去年12月开始,针对性结合此次国奖获奖项目的一些技术训练星火语音大模型,并于今年1月30日发布讯飞星火语音大模型。一经发布之后,在中文、英语、法语、俄语等首批37个主流语种的语音识别效果已超过了Whisperv3。
此外,我们之前也发布了超拟人语音合成,意味着我们与机器进行语音对话时,能听到像真人一样的合成声音,并且有情绪感知能力,不论在语音合成的自然度和拟人度上都有更好的表现。
这个项目涉及的创新方法结合场景应用,可以在通用大模型的基础之上,进一步对语音问题有更好的建模和理解,同时也降低我们对多语种海量数据的需求。本项目的技术跟大模型之间可以形成互相借鉴、互相结合的关系。
心智观察所:现在训练大模型因为各种原因,需要更多地使用国产芯片。那么使用国产芯片来开展智能语音算法模型训练和推理的时候,有哪些难点需要被克服?请问讯飞专门做了哪些优化?
刘聪:国产化也是本项目的一大特点。我们一直强调国产自主可控,一方面是重视自己能够掌握的算法创新,另一方面注重跟硬件相结合。2019年讯飞被美国列入“实体清单”时,我们就开始做储备。目前,国产芯片本身在制造等方面被“卡脖子”,在性能上有一定的差距,而且芯片的软件生态也有待发展。
对比图像,在本项目里用国产芯片做语音模型训练相对而言难度更大。说同样一个词,我可以说得慢、也可以说得快;在语音模型里做芯片的适配时,不同的语音长度可能会导致对算子的适配度不一样。即使芯片在硬件参数上水平相当,但算子适配不好的情况下去直接训练模型,很可能刚开始只有百分之二三十的效率。这样同样训练一个模型,需要的时间更长,还有些算子会不支持,实际上是很重要的一个问题。
从现在领域里比较关注的端侧适配的角度来看,一些国外的芯片在端侧使用这些模型时,量化适配做的比较好,不论什么模型在量化后损失可控。而国产化的一些端侧芯片量化之后,积累的误差损失会比较大。
所以针对性能低、适配难以及语音变长等问题,项目提出了硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。现在讯飞很多的硬件产品,例如录音笔、扫描笔、办公本、学习机等都使用了国产芯片,也基本在使用上面提到的算法,证明了有效性。
值得一提的是,由于我们被列入“实体清单”,导致这些工作的开展异常艰苦。但是如果没有这些经验和积累,我们此后就无法与华为联合攻关,在去年共同建设出全国首个国产万卡算力集群“飞星一号”,并且此后基于“飞星一号”推出讯飞星火大模型V3.5、V4.0,这些星火新版本都是在全国产平台上训练出来的。据我所知,如此大规模使用国产化平台训练模型成功的只有讯飞。
所以我想强调的是,此获得国奖的项目不光是解决了历史上智能语音技术相关模型的国产化问题,更是为大模型时代的国产化能力奠定坚实的基础,让大家看到在全国产算力平台上训练对标国际顶尖水平的大模型是完全可行的。
心智观察所:您刚才谈到了首个万卡的全国产算力平台“飞星一号”,我们想了解一下它目前的基本情况,请问此平台目前表现怎么样?
此外,因为您刚刚也谈到为国产硬件芯片做专门的优化非常辛苦。作为走过这条路的企业来说,你觉得国产芯片除了硬件的计算性能之外的软件生态建设方面,您还有什么呼吁和建议吗?
刘聪:从进展来说,去年底“飞星一号”整体训练性能相对于英伟达集群已提升到90%,并且之后还在不断优化提升,但是整体和国外先进水平对比还是有一定差距。由于模型与模型之间的适配逻辑不完全一样,有些不同尺寸结构的模型需要持续地适配,我们的重点在训练最主要的模型上,同时持续地训练和迭代多模态模型、语音模型等。我们也将继续与华为合作,深入完成全国产算力平台相关的工作。
我认为生态是共建的,而不是靠某一家企业的算力和人工智能。如果我们想要做到英伟达一般的生态和框架,能足以应对任意一个模型,就要对各种各样的结构、尺寸、模型创新有充足的支撑,以及在硬件的底层能力上持续进行演进,变得更加友好。
对此,我有另外一个呼吁:开放算子库。开放的方式有很多,例如从底层的算子库到上层的框架,以及配合一些社区的内容。目前,讯飞和华为共建的算子库大部分都已经共享到库中,未来如果有更多能够比较开放地使用算子库的企业,他们自己的很多创新算法就可以用这些算子去验证,并且会不断地去发现问题、闭环问题,这对于我们行业很关键,核心还是大家要去用。
心智观察所:据了解,如奇瑞、一汽等车企也做过一些比较,认为讯飞的多语种智能语音技术效果全面领先于竞品赛轮思。华为随后也做过一个测评,称讯飞领先于谷歌。请问在这些评比中具体比较的是一些什么样的项目?
刘聪:一般评测指标有两种,第一种为技术指标。技术指标一般需要我们要通过国际上权威的评测来做,可以理解成纯算法本身的比拼。例如我们在2021年国际低资源多语种语音识别挑战赛OpenASR,获得了15个语种22项第一。故此,这种指标是一个较为学术性的指标。
你刚刚提到的这些测试主要是站在产品的层面来做评估,考验端到端效果。举个例子,在奇瑞、一汽等车企的评测里,它评估的不只是一个单点的语音识别指标,而是考虑整个汽车语音交互的流畅度、任务的信息传达准确性、功能多样性、唤醒成功率等各种各样的维度。
与我们竞争的是国际上的语音识别王者赛轮思,前身为被微软收购的Nuance。在车企的交互测试里,我们的系统效果全面领先赛轮思。同时,由于中国过去几年在汽车出海上表现优秀,本项目也经历了多语种的交互效果评测,国内现在出海的汽车,其车载语音交互系统绝大部分选择的是讯飞的多语种智能语音交互系统。
华为的评测在当时主要是考虑面向欧洲的手机出海,所以它的评测项目主要是手机的语音助手。我们的主要对手就不再是赛轮思,而是谷歌;华为采取的同样是端到端产品层面的测试。当时评测了英语、法语、西班牙语、意大利语等语种,讯飞也都全面超过谷歌,最终由我们提供了整个系统。所以,在去年全球1024开发者节大会上,华为副董事长、轮值董事长徐直军提到目前华为公司在全球所有使用的智能终端的语音技术,都是来自于科大讯飞,而且不仅仅是中文。
这些企业在产品层面的遴选都非常严格,既要求效果又要求效率,还有可靠性。他们却不约而同地选择讯飞,充分证明了我们站在客户视角做出的端到端效果和体验很优秀。
心智观察所:我看到有提出多语种技术存在一个卡脖子的问题,请问这个问题的由来是硬件层面还是算法层面?然后,讯飞提出了一种多语种统一音素韵律体系,并提到一个基于语族分组的共享建模技术,请问这些技术又是一个怎样的情况?
刘聪:某种程度上,这次的项目获奖与卡脖子非常相关,许多国产化项目其实都是在这个背景之下催生的。
卡脖子既包含软件和硬件。硬件在刚才已经讲述了一些,例如从2019年断供人工智能的关键芯片,后来愈演愈烈;2022年10月,美国再一次极限施压,升级对华半导体管制,导致我们基本上无法购买任何美国生产的硬件。另外在芯片层面,随着大模型的崛起,美国也进一步加大对硬件层面卡脖子的力度。
在软件层面,美国直接掐断了多语种语音技术的支持,很多语种技术服务无法使用,使得我国每年庞大的手机、家电出口受限。当然,讯飞的多语种技术也因此受到了很大的影响,讯飞在中文语音领域全球领先,在数据方面有多年储备,但是我们当时关注的60多个语种不可能都像中文这样去投入:一是因为多语种数据资源缺乏,很多语种没有那么多数据;二是即使我们能够获得一些小语种的数据,但是每个语种的知识及语言专家都很难找,知识匮乏。
为了应对小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题,除了前面提到的语音属性解耦共性技术在多语种领域有一些应用之外,我们在多语种共享建模关键技术上也实现了突破:设计了全新的多语种通用音素体系RGP(RoughGlobalPhone)和基本语言单元,结合字音转换自动学习和人类语言专家的校验反馈,让不论哪个语种的词语都能使用这套共性的音素体系,实现了多语种统一音素韵律体系的构建;
再通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练。基于以上技术创新,我们使需要的小语种数据数量大大降低,最终也显著提升了小语种语音系统性能。
心智观察所:关于这次获奖,您刚才也提到和中科大的合作,从校企合作的这个角度来说,攻克核心技术,促进复合人才发展,推动科技成果转化,请问从您的角度来说,您觉得还有哪些工作是可以总结或是需要继续完善,继续去进一步做?
刘聪:将本次获奖算在内,讯飞一共三次获得国家科技进步奖。每次奖项都凝结了十年左右的积累和突破,我们自称“十年磨一剑”。
讯飞从成立之初,就非常关注产学研。当年,讯飞创始人、董事长刘庆峰等六名在校大学生加上十二名员工,一共十八个人创业成立科大讯飞,我们也是第一家在校大学生创业之后成功上市的企业。如此看到,讯飞源头的核心技术来自中科大,特别是王仁华老师建立起的我国最早的人机语音通讯实验室。除了中科大之外,讯飞也整合了源头核心技术资源,包括语言所、声学所以及后来清华大学等,将国内在语音方面最有优势的产学研资源全都集中。此后,我们也不断基于研究方向和许多外部实验室合作。故此,我们从创立之初到现在一直高度重视产学研。
我们现在产学研模式与成立初期有一些变化。早期我们的产业模式更多是一个横向项目,这意味着每当企业有一个任务需要高校的创新能力时,就需要高校从原始创新的角度去解决这样的任务。但是,我们现在的问题大多源于产业里很复杂的一些问题,解决它们也需要一个比较复杂的产业链。所以虽然横向项目仍然存在,但现在很多的组织方式变为和高校共同申报国家的项目。企业的问题中可能会解析出一些不同的技术难题,有的需要原始创新、适合高校去研究;有些需要工程能力或系统性创新能力,适合企业去完成,因此现在校企之间变成了一个更大的创新联合体概念。
多年以来,我们一直坚持产学研,但伴随着科技创新在不同时代所要解决的问题不同,企业、高校在其中扮演的角色也一直在变化。
那么,我们讯飞产学研的边界在哪里?从讯飞这些年的经验来讲,我们的业务部门在做“今天的事”——在产品研发过程中,我们不可能在技术仍然是“期货”状态时就马上推出产品,产品推出时技术应该已经成熟,使得用户在使用体验之后,技术还能够持续迭代;
讯飞研究院则是在研究“明天的事”。研究院会进行技术孵化,例如做出一个技术demo给大家展示,虽然还没有进入产品和应用,但是有了技术雏形。此后结合应用场景、产品的具体需求,这些技术会继续打磨迭代,直至真正应用;
高校所考虑的甚至更加长远一点,想的是“后天的事”。有些高校里的技术可能仍然存在于论文之内,离工程化还有一定的距离,但却代表了下一代,甚至是下下一代产品的技术可能与方向。
所以,我们需要分配好我们的产学研资源,在企业我们强调技术的应用落地,在研究院里完成技术的预研的孵化,在学校里探索布局下一代前瞻技术。
讯飞研究院上一任院长胡国平曾经提出过一个理念:台阶的重要性,意思是对于企业来说,如果等一个技术完全成熟之后再去布局,可能就会为时已晚;所以在技术不断进步的前提下,上一个台阶技术相对成熟,我们就要预估技术进步的未来趋势,以及能够达到的具体程度,提前布局下一个台阶里更高难度的技术和更广阔的应用场景。
打个比方,我们2010年推出了讯飞输入法,开启语音输入的时代。但大家使用语音输入法的时候一般是自己思考一下再说出来,这种场景下的语音识别难度显然比不上两人聊天、多人开会。虽然当时在深度学习技术的加持下,语音识别水平有了显著提升,但应用到会议场景准确率就会骤降,因此2011、2012年我们迭代讯飞输入法的时候开始思考,如何让语音识别技术拓展到访谈、会议等场景里应用。
2015年时,讯飞输入法效果已经非常不错,那一年我们在年末的发布会上又推出了语音转写技术的成果——讯飞听见,全程将发布会上刘庆峰董事长的发言进行精准的转写,实现了技术突破。
此后,我们又逐渐迭代技术,并且基于此推出了录音笔等智能硬件,讯飞听见也服务了越来越多的重要大会,并且在语音转写之外还实现了翻译等功能。今年,讯飞听见已经服务全国政协两会六周年,全面覆盖人大政协各个驻地会议三周年,讯飞听见智慧简报系统助力了两会期间驻地的记录服务工作,同时还帮助数十家媒体的多位记者采访记录、高效出稿。
我们今天之所以能够达到这种水平,离不开之前所设置的“台阶”。所以要基于技术发展的速度,合理地预判趋势来提前做产业转化的布局。