喜马拉雅音频大模型亮相云栖大会，用AI赋能内容创作者

文｜朱晓培

过去一年多，人工智能AI发展的速度超过任何历史时期，特别是生成式人工智能（AIGC）带来的新想象力，引人憧憬。

根据各地网信办发布的公告，截至2024年7月30日，全国范围内已有197个生成式人工智能服务通过网信办备案。人们最关心的莫过于，这些大模型，到底会如何落地，又会给物理世界带来什么样的改变？

9月19-21日，2024云栖大会上，人们可以发现一些答案。特别是AI的前沿应用馆里，因为汇聚了多家公司的AI应用成果，成为了最具人气的展馆。

在这个展馆里，喜马拉雅不大的展台，格外引人瞩目。与在其他展台面前观众排队等着体验AI游戏不同，展台上的一个二维码，引得众多观众掏出手机扫码入群。这个叫做“珠峰AI音色数字克隆人”的群，是专门为了喜马拉雅的珠峰AI音视频创作平台的VIP权限开通所用。

据现场的工作人员介绍，珠峰AI音视频创作平台，是通过珠峰AI音频多模态大模型（简称“喜马拉雅大模型”），结合喜马拉雅独有的全品类音色库和数字人大模型，为创作人提供高品质的AIGC和数智人服务。

用户获得珠峰AI的VIP权限后，可以上传一段15秒至1分钟的露脸视频，生成属于自己的视频数字人，然后上传文案、选择声音，就可以创作自己的音视频作品，还可以通过克隆音色制作音频作品。这一功能，吸引了大量的创作者，19日下午，《商业与生活》去展台参观的时候，就已经开到了VIP3群。

“AI声音要做到自然，其实是很难的，需要模仿人类的呼吸、停顿、语气词等，珠峰AI的效果很棒，让人听不出来是AI合成的，对于创作人来说，是不可多得的工具。”一位用户评价说。

01、喜马拉雅大模型，首个备案音频大模型亮相

2024云栖大会上，喜马拉雅展示的大模型，是其自主研发的AI音频生成大模型。

就在9月9日，喜马拉雅音频大模型与米哈游、阅文集团的筑梦岛等文本大模型共同进入了上海网信办发布的新一批上海市生成式大模型备案通过名单，成为全国首个通过网信办生成式人工智能服务的音频生成类大模型。

据《商业与生活》了解，喜马拉雅音频大模型也是全球首个第四代多情感演绎、超自然表达的音频生成大模型。该模型是珠峰AI团队基于自研文本音频联合建模的LLM框架，在同一空间向量表征下实现音频与文本的联合建模训练。这种联合建模的方法，充分赋予了音频生成任务以强大的语义信息，并充分利用它们之间的内在联系和互补信息，大幅度提高模型的性能和泛化能力，这也是第四代音频大模型超越上一代的核心技术突破。

在训练过程中，喜马拉雅珠峰AI首先将音频数据和文本数据分别进行预处理，将它们转化为适合模型输入的 token 形式。将音频 token 和文本 token 映射到同一空间向量表征中，通过使用共享的嵌入层将音频 token 和文本 token 映射到一个共同的高维向量空间中，从而使得模型能够更好地理解和处理音频和文本之间的关系。整体训练流程包括预训练（Pretraining）、有监督微调（SFT）、领域有监督微调（Domain SFT）、说话人有监督微调（Speaker SFT）、强化学习（RL）几个主要流程。

通过这几个流程的训练，依托百万小时的自有版权音频数据进行训练后，喜马拉雅音频大模型具备情感输出、自然表达、语种互译、超拟人、多情感、15s音色克隆能力和声音转换等技术能力，在音频生成领域实现了多维度突破。

基于喜马拉雅音频大模型，可生成一系列情感丰富的有声书作品：擅长进行超拟人、副语言可控的语音生成，做到媲美真人的真实对话风格语音生成。

只需要使用15s以内音频，即可快速克隆音色，超低成本个性化音色制作，可同时进行个性化音频内容生成和变声；还支持跨语种的声音合成，如单老的中英混读；此外，方言的合成也不在话下；并且还能生成一些特色音，如助眠音的合成。

结合喜马拉雅音频大模型的快速声音克隆能力，叠加珠峰AI团队自研的单图驱动口唇技术，使用一张图和一段声音，可快速生成趣味配音视频，具备高自然度的语音和口唇对齐效果：

《商业与生活》在现场体验了喜马拉雅的AI文本驱动功能后，也深刻感觉，对于创作者来说，如何让AI成为自己的第二大脑，把创意更便捷、更迅速的落地，已经成为了一个重要的命题。

02、AI赋能内容创作者，重塑内容生态

AI技术的飞速发展，正以前所未有的速度推动着内容创作行业的变革。有业内人士指出，眼下，AI将不仅仅是辅助工具，更可能会成为内容创作的主导力量。内容生产由传统的“全人工生产”模式，转向为“人工+AI Copilot”模式，极大的提升了内容生产的效率。

喜马拉雅，也将AI相关业务，列为头号任务，在战略中明确表示，“继续发展面向未来的技术，AI及大数据能力”。

在内容生态体系中，内容制作成本高昂一直是众多内容平台的一大症结。从版权采买，到匹配创作者，再到漫长的制作周期，每一环都是人力和成本的堆积。

洞察到内容创作这一痛点的喜马拉雅，选择通过AI赋能创作者和平台，便捷创作者的内容生产，形成像“AI制作人”一样的人机协同。

有了AIGC的演绎能力，喜马拉雅可以帮助创作者极大提升效率。过去平均生成一本书可能要几十天或者一两个月。现在可能一两天，甚至十几个小时就能完成。播客主潇潇使用喜马拉雅智能创作工具“音剪”后说，过去需要100分钟剪辑的音频，现在不到10分钟就可以处理完。可以节省出更多的时间，用来琢磨精品的内容。

有数据显示，在喜马拉雅，AI贯穿着有声读物的预录制、录制、后期等全过程，相比于人工创作的耗时，AI提效超过50倍；而由AI制作、人有限参与的精制作，相比于人工创作提效逾3倍。以宣传物料为例，以往，真人主播在制作一张专辑，专辑封面图、推广物料等，如果外包给外部工作室的费用至少千元。但使用喜马拉雅的AI工具，主播制作一张专辑在各环节需要的图片，设计成本可以降到几毛钱，且效率奇高，几分钟就能完成图片生成。

除了将AI技术深入应用于PGC、PUGC、UGC的创作全流程，帮助创作者实现降本增效外，AIGC本身也开始成为喜马拉雅的一大内容生产方式。数据显示，截至2023年12月底，喜马拉雅平台上的AIGC内容达2.4亿分钟，占平台音频内容的6.6%。

此次云栖大会展示的珠峰AI创作服务平台——珠峰AI音视频创作平台，就是依托通义文本大模型对文本内容语义的深度理解，打造珠峰AI音频大模型，结合喜马拉雅独有的全品类音色库和数字人大模型，为创作者提供高品质的AIGC音频和数智人服务，建立了包含535种合成声音组成的音色库，以适配不同情景下展示人类的感受及情感。

最近爆火的有声书《我的阿勒泰》，就是由喜马拉雅音频大模型生成的。更早些时候，喜马拉雅的技术团队，还利用运用AIGC技术还原了已故评书大师单田芳先生的独特嗓音，并使用他的AI合成音来全新演绎其经典之作。

喜马拉雅珠峰AI表示，音频大模型能力已经在珠峰AI官网（zhufengai.ximalaya.com）上可以直接体验使用了，用户可以直接创作用户自己的音频内容。相信有了喜马拉雅AI的助力，国内的内容生产者能够更高效地创作出更多高质量、个性化的内容，满足广大听众的需求，推动整个内容产业的创新和发展。

03、AI in All，给喜马拉雅带来新的想象空间

作为音频行业领头羊企业，喜马拉雅曾首创PUGC内容生产方式，并通过“PGC+PUGC+UGC”三位一体战略，实现了从头部专业生产内容到长尾用户生产内容的音频内容全方位覆盖，打造出自己的“声音宇宙”。

如今，AIGC的出现，为喜马拉雅带来了新的想象空间。

众所周知，高质量的数据库，是AI大模型落地的基石，是AI大模型进化的燃料。而喜马拉雅拥有全面的音频内容生态，包括体量庞大的音频内容库，以及数量众多的音频内容创作者。据公开数据显示，截至2023年12月底，喜马拉雅拥有约4.9亿条音频内容，总内容时长为36亿分钟。喜马拉雅拥有的庞大的语音库，让喜马拉雅大模型拥有了不断演进的AI能力，这也是喜马拉雅在AI时代的竞争优势。

喜马拉雅不仅在AI上拥有数据和技术上的优势，而且，AI还在智能化广告营销中发挥更突出的作用，给喜马拉雅带来了更多的商业变现场景。比如，通过AIGC原生声音流，实现“广告即内容”。

此前，喜马拉雅就联合贵州茅台推出了“单田芳AI声音重现”春运公益活动。不久前，喜马拉雅联合慕思共同打造的“邀李白共启AI穿越之旅”活动，在西安大明宫举办的“慕思奇妙夜之 AI 梦长安” 开馆活动上，喜马拉雅大模型技术助力慕思博物馆馆长与李白进行了一场跨越时空的对话，让人仿佛置身于古代文人雅士的聚会之中。

随着AI技术的不断融入与创新应用，喜马拉雅不仅改变了内容创作的边界，也在商业化探索上开辟了新的广阔天地。通过将AI技术与传统文化、商业品牌深度融合，可以打造出一系列既富有文化底蕴又极具商业价值的活动，助力品牌策划出更加精准有效的营销活动，开启全新的商业增长点。

在云栖大会会场，可以深刻感受到，AI技术正快速从实验室走向实际应用，影响着各行各业的发展。在内容创作方面，AI与人类创作者之间的协作，已经在成为内容创作的大势所趋。

而在上海张江的喜马拉雅园区，随处可见“AI in All”的标语。这家国内知名的音频在线平台，正在内部掀起一场全方位的 AI 变革，也打开了新的增长曲线。

世良情感网

喜马拉雅音频大模型亮相云栖大会，用AI赋能内容创作者

数码两个接三个