如果香农知道腾讯做了这件事……

胡说成理数码评 2024-07-07 13:05:17

6月,腾讯提议启动,并参与推进和维护的AVS3P10音频解码标准定稿了。

令人耸动的是,业内人士认为,从某种意义上说,这个标准突破了在传统条件下的香农极限,从而证明了AI Codec相对传统Codec可以显著提升编码效率,它奏响了AI改变视音频编解码产业的序曲。

AVS3P10音频解码标准的提出,意味着我们每个人都有机会在这个全数字时代获得更好的沟通体验,更意味着中国的AVS标准在和MPEG等国际标准争夺全球音视频领域的标准制定权的博弈中,已经先下一城。

值得深思的则是,我们记忆中的以“产品为王”著称的腾讯,是怎么开始进入从底层技术研发领域,又有什么优势和方法论,能够这么快的拿出世界级的研究成果。互联网产品的成功带动多种通信、人工智能等技术的融合,形成质变的路径,对于总体来说更擅长做产品和应用的互联网行业,又有什么启发意义?

——导语

01字少事大

最近,腾讯发了一篇新闻稿,内容也很简单——新一代实时语音编码行业标准AVS3P10即将正式发布。

该标准由腾讯提议启动、推进和维护,以腾讯首款神经网络语音编解码器Penguins为原型,关键的一句话是:“Penguins将AI与传统技术紧密融合,从算法研究、工程化、产品化层面做了大量系统性创新,打破传统香农定律的性能极限”。

看到这里,笔者就有点坐不住了;我想,凡是学通信工程、信息学,或者对人类信息科学发展史有点概念的读者,都坐不住了。

为什么呢?因为香农定律在这个行业里,不,应该说在这个时代里,地位太重要啦,那就是信息工作者yyds啊。

人类从较早期文明到今天,其实也不过经历了四个时代——狩猎采集时代、农业时代、工业时代和今天的信息时代。

而克劳德·艾尔伍德·香农,这位生于密歇根的一个普通家庭的科学巨匠,就是信息时代的先驱者。可以说,他以一己之力,开启了人类沟通方式革命的大门。

1948年,香农发表了那篇震古烁今的硕士论文——《通信的数学理论》,此文如同划破长空的闪电,宣告了信息论开始登上历史舞台。

有人认为,香农定律应该被列入“人类历史上最重要的五个定律”之一,完全足以与牛顿的经典力学定律、爱因斯坦的相对论等相提并论。

比如,我们今天度量和建设信息世界的最小度量单位——比特,就是香农提出的;换言之,就算是将来整个人类都进入了元宇宙时代,那这个宇宙的度量标准也是香农提出的。

1948年,香农提出的信息熵,解决了电报、电话、无线电等如何计量信号信息量的问题。

但一个具体的问题是,但怎么在远距离通信中进一步提高信道容量,也就是信息传送速率上限在哪里,这个“哪里”就是所谓“香农极限”。

香农的牛就体现在,香农极限不是一种假说,因为香农给出了具体的信道容量公式,也就是“香农公式”,几乎所有的现代通信理论都是基于这个公式展开的。

必须说一下信噪比这个概念,简单说就是,在一个通讯过程中,信号越强、噪声越低,通信质量就越高,俗话说就是信噪比高。

可以说,自有香农的这个公式之后,人类通信发展的主流方向,就是围绕着扩大带宽和提高信噪比这两个命题在玩。

从某种程度上,人类从1G发展到今天的5.5G,其中一个重要的原因之一就是,通过增加带宽,我们甚至可以轻松应对小于0的信噪比。

虽然从理论上来讲,带宽为王。但是,定律归定律,我们要面临的真实世界,总是比实验里复杂很多。

比如,线上会议、语音通话等实时音频沟通,经常面临着在电梯、地库、隧道等网络很差的环境里持续通话的场景,类似的情况还有在快速移动的交通工具上(如高铁、汽车),同时也包括在信号覆盖本身就较差的地方(如郊野、偏远地区)。

你可以在一个信号较弱的地方增加信号(比如多增加一个发射塔),但是你怎么能预测到每一个人在每一次行程中遇到的每一个信号较弱的点位呢?

而以上问题,对于应用覆盖了腾讯会议、QQ语音等场景的腾讯会议天籁实验室的研发人员来说,可以说,每天都在解决类似的问题——这也是他们要挑战香农极限的动力。

以香农公式为通信理论之基,通过不断革新技术,提高信噪比、提升带宽使用效率这是一个主方向。

但腾讯会议天籁实验室专家研究员、Penguins项目负责人、AVS3-P10标准Editor肖玮说:“既然真实情况是——不能保证任何时候都有足够的带宽,那我们就把编码器的能力做强,反其道而行之——使得即使在很低带宽的情况下,依靠更小的码率,保证信息收发的正常和高品质——当然,在带宽足够时,音质跟现有方案仍然能打平手”。

不要以为这很简单,从提出构想到实现构想,之间的距离不是一跃可过的。

例如,30多年前,国际电信联盟就提出:两个人在地球的两端通讯,可以接受的延迟是在400毫秒以内。

但今天6G都快来了,但人类仍然无法做到,保证任何一次远距离通讯的延迟都保持在400毫秒之内。

还是那句话,行业标准可以很高,但实际的带宽环境永远错综复杂。

编码技术是一个很有意义的方向,它的核心意义是,把原始的声音(我们可以看作是要运送的货物)按一种特定形式打包,包如果打的足够巧,体积就可以很小,就可以在同等运力的情况下运送更多货物;但如果一味追求压缩体积,就可能把货物“压坏”,从而同样无法得到高质量的语音。

腾讯会议天籁实验室的挑战是,EVS、OPUS等现有主流音频编解码标准,已经很成熟了,应用也很广泛,但技术的演进停留在这些标准上也已经很久了。

肖玮说:“我们当时开展工作的一个背景是,当码率降低到10kbps以下时,任何一种现存编码器的传输语音质量都下降明显,影响用户体验。这意味着我们不能仅仅是改善别人的技术,而是要在底层技术上作出变革和创新。”

这就是腾讯会议天籁实验室对香农定律的极限挑战,但是,这次他们多了一个队友——腾讯AI Lab。

在传统方法几乎穷尽时,正在勃兴的AI技术,到底是不是音视频编码新的福音?

02有多少黑科技,就有多少的工程改造量

先说一下天籁实验室的目标,他们的大致目标是,在保持甚至提高语音质量的前提下,大幅度降低所需码率。

也就是说,既然现在的分水岭是10kbps,那么,新的编码技术要在更低码率(比如:6kbps)的条件下,语音质量的主观体验仍然在4分甚至4.5分以上(满分为5分)。

这里要介绍一下Codec这个概念,它泛指支持视频和音频压缩(Encoding)与解压缩( Decoding ) 的编解码器或软件。而随着AI技术的勃兴,AI Codec技术随之兴起,它指的是在AI方法论赋能下的编解码技术创新。

有业者指出,AI Codec压缩性能超越传统的H.264、H.265仅使用了传统方法1/6的发展时间,从1988年的H.261到2020年的H.266,相较于传统编解码器平均十年一次的迭代频率,AI Codec的发展可谓神速。

“在AI的加持下端到端的优化是一个系统工程,也是我们没有走过的一条路”,肖玮说:“但我们有一个很好的价值观,使得目标明确。因为腾讯的价值观就是用户体验优先,这其实就给我们的研发排定了优先级——首先要保证体验大幅度改善,然后在这个前提下找具体的路径,这使我们的一切探索都有了方向感”。

而传统的音频技术,其实已经逼近传统条件下的香农极限,肖玮介绍说:“如果对一个原始的信号每秒采样率是16000个点,每个点用16bit进行表示,不做任何压缩就是256kbps,按压缩10倍粗估,就是24kbps,这就是传统编解码技术的香农极限。事实上也如此,目前基于传统方法的编解码器码率,就是在20kbps左右可以保证较好的质量”。

“一般来说,在信息技术领域,20%幅度的效能提升就可以称为一次迭代”,肖玮说:“但这次等于说要把20kbps降到6kbps,优化幅度要达到300%以上,这就非要AI这种新力量的赋能才可以做到。”

其实,对于要不要做这件事,也存在争论。有人认为,目前的用户带宽水平已经很高,24kbps其实已经非常低了,所以继续改进的ROI是很低的。

“但我们不这样看,因为我们有亿级用户的真实场景”,腾讯云副总裁、腾讯会议天籁实验室主任商世东说:“从我们的真实观察来看,用户遭遇弱网环境的案例比比皆是,这导致了即便单纯从降低码率这一个维度看,我们把技术提升到极致就已经有很大的收益;甚至,还会有新的、意想不到的应用场景被开拓出来”。

事实上,在笔者了解Penguins诞生的过程,发现天籁实验室和腾讯AI Lab的团队联合起来,至少解决了四个大方向上的问题,才最终催生了今天的结果。

第一个问题,就是路径问题。

“事实上这个需求是2020年提出来的,最早提出的是解决低码率下保证中等语音质量的问题”,腾讯AI Lab的阳珊说:“但当时我们没有任何既定的路线可以参考。”

经过反复的讨论,定下了引入了深度神经网络,提前进行海量学习从而进行语音建模,从而“利用AI能力在编码时能够抓住音频最核心特征参数,并根据重要性智能分配码率,再借助深度学习网络,预测并重建语音中的细微结构,最终生成逼真的音频波形”的这样一条路。

也许读懂这段话有些吃力,那我们可以打个比喻——传统的编解码,就是只按一种固定形式打包和发运,而且如果中途有些包裹丢失了,也没有办法。但AI加持下,会智能的根据货物的特征和运力的情况,灵活机动的决定最优的打包方式,而如果预测到了可能丢失货物,还可以自动化的补货,从而保证了接收到的包裹被以最合适的方式处理,且损失也会实时得到补充,从而让发货和接收方的满意度都大大提升。

就在次年,Pengunis就作为新一代的AI语音引擎开始服务于腾讯会议等场景,得到了大量的好评,这初步证明了腾讯会议的路,选对了。

第二个问题,无穷无尽的优化。

为什么2021年就开始尝试使用的技术,要到2024年才广为人知呢,除了参与AVS的标准工作需要大量的时间之外,很具体的问题就是这个技术随着产品的升级,也在不断优化。

“这个工作如果要钻到细节里,可以说是无穷无尽”,阳珊说:“人耳是非常敏感的器官,听觉是主观的、甚至有时候是玄学。比如进行了一定程度的压缩后,有人听得出底噪,有人听不出,所以我们就要按听觉比较灵敏的那一部分人的标准去优化,这造成了大量的算法+工程问题。”

而在同时,要求也在不断提高,“最开始提出的目标,是满足低码率下中等程度的通话质量,后来不断提升到更低的码率和更高的质量”,肖玮说:“你也可以理解为我们成功了,也可以理解为还在路上。”

“有时候优化是很有趣的,因为完全不同的场景会产生不同的需求,我们要做好调优“,QQ音视频技术负责人刘天成说:“仅仅就QQ的语音沟通来说,如果是私人的点对点沟通,对语音的还原度要求就很高,比如呢喃细语、呼吸的声音,都要逼真的还原;还有一种场景是连续几小时、一整夜的通话,我们就要考虑整个过程中的功耗、设备的发热量、省电等等,可以说,有多少黑科技,就有多大的工程改造量。”

第三个问题,模型要足够小。

阳珊说:“我可以明确的说,这不是大模型,也不是从大模型蒸馏出来的小模型。因为我们做的是AI编解码器,而一套语音方案中会集中很多个编解码器,你可以理解为我们在做一个在体积、效率、功耗上都有严格限制的、极为精密的小模型。”

而且,由于主要是实时语音场景,所以99%都发生在智能手机上,“这要求我们不断的降低对端侧算力的需求,做到不同设备、不同网络环境下的体验一致性,用开玩笑的说法就是‘在低端手机上也要跑出风火轮的速度’,这对技术的要求非常高”。

事实上,最终的Penguins只有百K规模,阳珊说:“这体现了腾讯AI Lab团队的底层技术能力,很多人提到模型就说算法,其实我们调优的颗粒度可比算法精细多了,包括最底层的算子、甚至更低一层的函数,我们都会做优化,这也是为什么我们最终能拿出一个世界级水平的产品的原因,那就是底层能力的自信和掌控力”。

“综上所述,我们解决的是一个“既要又要还要的问题”:高质量、低码率、低算力(其实还有低延时)。所以,真实在系统侧设计整个解决方案时,我们又进一步将传统信号处理和信息论与最新AI技术进行了紧密融合,数据驱动+领域知识,形成全新的方法论。这不是简单的1+1过程;而是从方案顶层设计、算法细节、极致工程化等多方面端到端对问题进行闭环”,肖玮解释到。

如果说以上三个问题,都属于技术层面的问题,那么,Penguins面临的一个终极考验是,既然做到了世界级的创新,那到底能不能得到世界级的认可?能不能让这种成就广泛的给用户创造价值,而这才是最终的大问题。

所以我们下一节单讲这个问题——标准化问题。

03成为世界标准的路并不平坦

成为世界标准的路并不平坦。

2024年6月,AVS3P10实时语音编码标准正式完成标准化工作,进入公示阶段。

我们要先理解何为AVS。

简单说,AVS(Audio Video coding Standard,音视频编码标准)是中国全自主知识产权的一个音视频编解码标准,它作为一个工作组织则成立于22年前,也就是2002年。

它的先进之处在于,是全球首个落地应用的面向8K及5G产业应用的音视频信源编码标准,已被正式纳入国际数字视频广播组织(DVB)核心规范。

而对电脑比较熟悉的读者可能会想到,自己经常播放的音视频的文件名后缀是*.MPEG。

没错,AVS的主要竞合对象,就是国际标准化组织ISO与IEC(国际电工委员会)联合成立的MPEG专家组制定的MPEG-1、MPEG-2、MPEG-4等标准。

在技术性能上,AVS与MPEG标准存在直接的竞争关系,尤其是在编码效率、压缩比等方面。AVS标准在保持与国际标准相当的技术性能的同时,还具备复杂度低、实现成本低的优势。

但在市场覆盖上,MPEG的优势就是历史悠久,所以是事实上通行的国际标准。

因此,AVS和MPEG的竞合,一定程度上体现了在数字产业的一个重要门类——音视频技术市场中存在的激烈竞争。

而腾讯这次参与制定的是AVS的第三代标准AVS3中的一个模块,即P10实时语音编码标准。

事实上,尽管Pengunis在国内有腾讯会议、QQ语音这样的亿级场景,但国际上基于深度学习的语音编码方案并不只有一个,如微软推出的Satin方案、Google推出的Lyra方案、SoundStream方案等,竞争的焦点也都在低码率+高质量上——如微软提出的方案也基于6kbps,谷歌则强调性能更优于微软标准。

某种意义上,Pengunis是代表中国在AI Codec方面的最高水平,以参与制定标准的方式,帮助中国标准加强国际竞争力。

但这并不意味着AVS会对腾讯“开后门”,相反,腾讯要参与标准的制定,不但要主动提议并参与标准制定;同时,提交的基于Penguins的候选技术,也要经过AVS音频组交叉验证后才能采纳。

事实上,随着2024年6月,AVS3P10实时语音编码标准正式完成标准化工作,进入公示阶段,此前的一些信息才逐步披露出来。

“值得一提的是,腾讯主导该标准制定的过程,也被AVS工作组评价为制定速度最快,标准交付质量最高,测试得到充分好评的一个过程”,商世东说。

而AVS工作组也指出:“AVS3P10 实时语音编码,作为新一代的语音编解码技术标准,是对AVS系列标准的重要补充。该标准是当前业界的最高水平,体现了腾讯在语音处理、人工智能技术创新和用户体验方面的实力,将为用户带来更好的体验。”

“在目前,根据公开材料来讲,目前我们这套方案是业界唯一一个主观和客观质量都到4分以上,甚至4.5分的,哪怕我们在5.9kbps上都有四点几分”,肖玮说:“在(和国际标准)的横向比较之下,在10kbps下我们的质量优势非常明显,这意味着,它在一定程度上反映了中国标准比同期进行的国际标准的领先性。”

同时,这种领先性,也是和跟传统信号处理的编码器和先进的AI codec一起去对比的结果,肖玮兴奋的说:“从目前看,我们是代表了业界最高水平,是全球第一个系统性引入AI能力而形成的下一代语音编码标准、并在实用环境中真正意义上实现了低码率下高质量的效果,所以AVS给我们作了这样的结论,我们也倍感自豪。”

而对于为什么把自家劳心费力做好的技术拿出来做标准,商世东的看法是,这体现了腾讯的开放,也是为了行业的共同进步。

“我们在一个标准化组织里面,把所有新的技术框架和细节都亮出来,客观上就等于对全行业做了开放”,商世东说:“这也是腾讯一直主张的,通过友好的合作和开放,推动整个行业在下一代语音编解码技术里面能够大大向前推进一步,推动这个行业可以提供更好的技术和产品给到所有的用户。

而对于“公布标准和细节,会不会反而削弱腾讯的竞争力”的尖锐问题,商世东的看法是:“首先,腾讯是一个业务型的公司,不会因为单一一个标准披露了,就削弱了竞争力,因为,我们的技术标准都是在亿级规模的场景里先跑通,再把成熟的方案拿出来标准化,这种闭环是很难被复制的。”

事实上,笔者也认为,对于合作伙伴和生态来说,要想在最短时间内把Penguins这种技术用起来,最好的办法并不是拿着标准去做逆向研发,而是来和腾讯合作,通过生态连接的方式,接入更多场景和创造更多价值。

04产品与技术之辩

在导语中我们提出了一个问题——为什么腾讯这样善于做产品的公司,做出了世界水平的底层技术创新?它的路径优势和行业启示是什么?

一个看法是,做产品的公司之所以更有做出技术创新的机会,是因为它们知道真实的痛点在哪里,因为产品就是给用户用的,所以这些技术人员接触的是技术在真实世界应用的问题,他们比在单纯的实验室里,更了解真实环境下的种种特殊情况和痛点。

我认识的一位互联网大咖有个著名的判断——中国公司在AI时代更容易出成果,因为做应用、做产品的企业更容易产生创新,因为它们总是先于做纯研究的机构遇到问题,而先遇到问题,就有可能在解决问题的过程中更快、更早的实现技术突破。

这个论断部分解释了,为什么是善于做产品的腾讯这次更早实现了底层技术的突破。

但我们还可以更想深一层,因为在数字产业里一直存在“先技术还是先产品”的争论。

一种观点认为,应该先研发技术,然后从上游向下游摸索,看可以产生什么有用的产品。

另一种观点认为,技术的产品化,才是技术得以快速演进的先决条件,是产品给了技术面向真实用户的机会、是产品化推动了“技术产品化-产品商业化-用户反馈-技术再创新”的四步闭环模式,使得产品可以从“下游”溯流而上的推动技术发展。

举个例子,20世纪60年代末,随着计算技术和半导体技术的迅速发展,半导体元器件制造技术从分立器件、小规模、中规模集成电路向大规模集成电路发展。

作为这种技术趋势的一个里程碑,1971年大规模集成电路技术的结晶--4004芯片在英特尔公司诞生。

但我们并不能认为4004问世时,就是一个产品,因为产品总是针对具体用途的,而当时包括英特尔公司的高管在内,整个硅谷都没有人知道4004能用来干什么——其中,英特尔的创始人诺伊斯认为它最好的用途是可能是电子表,也有人猜测是厨房搅拌机,有人认为可以用来控制汽车的化油器。

这在某种程度上说明了,没有产品化的技术,就如同没有肉体的灵魂,只能独自飘荡。

比如,真正把大规模集成电路从技术变成成熟的产品,并发展成一个产业的,则是IBM公司。

不要以为大公司就是技术驱动的,IBM并没有发明PC技术,但它通过整合英特尔的芯片和微软公司的MS-DOS操作系统,成功的推出了PC这个产品,计算机行业也由此泾渭分明的分成软件和硬件两个阵营,通过一代又一代的产品创新,驱动着技术工作者研发更快的处理器和更完善的软件,这个规律一直到今天都没有失效。

这段历史给我们的启示是,有时候,技术是 0-1,产品是 1-100,1的确很重要,但如果没有100,单纯的1就失去了意义,也不会得到进化的机会;而只有当有了100后,人们才可以有机会在后面写上更多的零,甚至改变整个世界。

所以说,是产品选择了技术、促进了技术,而不是技术选择了产品。如果你只是有技术,那么,它只有很小概率被做成产品,更大的可能是被竖之高阁,比如日本的氢能汽车就是如此。

而先搞出产品,并在此之后不断迭代,才有了勃兴的产业,并推动技术不断进步,这可以说才是人类技术演进的主流,比如中国的新能源汽车产业、AI产业都是如此。

说的绝对一点——人类社会迄今为止,所有的技术诞生的时候,其实都不知道可以用于什么,是产品给技术面向用户的机会,使得技术可以顺流而下发展起来。

回过头来看,Penguins的成功,从技术角度看,是AI的大力出奇迹聚焦在了一个单点上形成的突破。但是从产品角度看,如果没有腾讯会议、QQ语音这样拥有亿级用户的产品,以及这些产品所产生的真实场景和真实需求,也就不会有人意识到改造编码标准的意义和紧迫性,更不会有人去做这样的工作,那我们的编解码器技术就会一直停留在前AI时代,我们也不会因此享受到更流畅并且无时无处都可以进行的高质量语音沟通。

中国是全球唯二的AI创新策源地,更是全球唯一拥有10亿级用户规模的单一产品市场,这让我们在后互联网时代和AI时代的弯道超车成为可能,但前提是,更多的善于做产品的公司,应该有足够的胸怀和抱负,有从产品创新出发、但又不止于产品创新的格局和意识。

这种情况下,腾讯这种巨头企业主动从产品出发去研究底层技术,并对技术成功的分享持开放、友善的态度,这对于整个行业的进步,对每个网民的体验改善,都意义重大,也树立了一个较好的赋能范式。

同时,这也证明了,所谓的“一流的公司做标准,二流的公司才做产品”的观念已经过时了。在数字时代,技术和产品交相迭代,技术的完善过程中,需要大量源自产品和用户的反馈来牵引技术的进步。这再次提醒我们,打造产品的能力值得被高度重视,它是商业文明得以发展和传承的密码,过于关注技术而轻视产品,最后往往反而会带来资源错配和失去市场机会。

0 阅读:0

胡说成理数码评

简介:感谢大家的关注