播客，下一个AI涌入的赛道 - 科技资讯(世良情感网)

在今年三月，SunoV3的横空出世，如AI圈的一声春雷。那时，复苏的不只有世间万物，还有在“人人都是音乐家”的口号下，大众对生成式AI的热情。

一石激起千层浪。在这场生产端，既有抢占先机快速套壳Suno的，又有加紧开发自研模型的，一时间诞生了上百款AI音乐生成产品；而在消费端更是狂热，数十万人涌进网易云音乐、QQ音乐等平台注册成为“音乐人”，乐此不疲地创作与发布。

在社交媒体上可以轻松看到这些帖子：“这套工作流，批量生产优质AI歌曲”，“秒过音乐人申请教程”，“分享我用AI音乐薅来的创作中收益”...

诚然，AI生成的音乐质量还远达不到“如听仙乐耳暂明”的程度。甚至还有些内容过剩，供过于求之下，听多了反而觉得厌烦。

但不得不承认的是，AI生成的音乐质量是高于大众普遍水平的，不可忽视其在部分场景下的应用价值和创造性价值。

面对来势汹汹的AI音乐，网易云，QQ音乐等平台选择积极应对，对此专门开放了AI音乐专区。

这一年多来，AI的熊熊烈火从文字，图片蔓延到视频，音乐...

而现在，轮到了播客。

用AI来做播客的探索近年来一直都有，但最近大家的热情，被谷歌一款产品的新功能再次点燃。

NotebookLM，一款上线于2023年9月的AI笔记产品，因其最新的文本生成播客功能而走红。

这不是简单的TTS（文本生成音频），而是能将你上传的任何资料，都转换成轻松愉快的双人对话播客，并且效果非常逼真。

AndrejKarpathy大佬认为NotebookLM是非常引人注目的产品形态，甚至有当年ChatGPT的几分英姿。墨问西东的创始人老池也表示NoteBookLM是新一代的笔记产品，AI生成的内容质量非常不错。

其实，谷歌之前还做了一个Illuminate，能用AI将学术论文/书籍转换成通俗易懂的播客形式，并在计算机科学领域做了一定优化。

该产品最早亮相于今年五月的GoogleI/O大会，现在已支持公开访问。

https://illuminate.google.com/home

自定义生成功能还需要申请，不过通过还挺快的。

犹记得当年没毕业，读那些难啃的人工智能领域论文还是跟着李沐老师，现在的学生，依靠两位配合默契的AI老师，就能把要点娓娓道来了。

AI播客在国内没有大范围爆发的一个原因，就是没有类似的中文版产品，但这只是时间问题。

特工宇宙在几个月前也尝试开发Agent实现类似的效果，整体流程并不复杂，但想要达到稳定逼真的效果需要一些工程上的优化手段。

大致实现思路：将文件中的纯文本提取后输入到大模型，大模型进行分段处理并结构化输出，然后分别用TTS最后再合成。

其中关键的三部分包括：

1.提示词技巧，需要将输入的文本转化成既具可读性和专业性的双人对话内容，这关系着内容整体价值，控制不好会容易导致内容泛泛而谈或过于生硬。

2.底层模型的能力，包括指令遵循和结构化输出的能力，如果没有严格按照JSON格式输出，会直接导致无法合成语音。

3.语音合成技术，TTS的效果会直接影响最终的用户体验，只有选用效果逼真的中文模型才会让人有听下去的欲望。

也有部分开发者进行了复刻，以下是一些供参考的开源项目，可以去学习一下其中的提示词技巧和实现思路。

1.https://github.com/gabrielchua/open-notebooklm

3.https://github.com/lihuithe/podlm-public

大众对文本转播客的青睐，蕴含着未来内容的创作与分发的新范式。

在不远的未来，内容模态的任督二脉将被AI打通。对于内容创作者来说，同样的选题和内容，可以轻松地转换成图文、短视频、播客等形式，分发至不同的平台，同时满足不同渠道粉丝的不同需求。

对于内容消费者来说，可以将固定的知识，让AI处理成更符合自己阅读习惯的方式。比如变成漫画风格呈现，或是变成音乐唱出来，甚至可以是讲八卦风格的相声。用户还可以定制化音色，换成自己心仪的声音，实现更个性化的千人千面。

这种多元化和个性化的内容体验，不仅能够提高用户的满意度和参与度，也将推动内容产业的创新和发展。

随着技术的不断进步，可以预见的是一个更加丰富、便捷和智能的内容生态，即将到来。