如何利用AI,开发完全免费的配音工具?多达318个配音员角色!

科技推吖推吖 2024-09-05 22:53:09

首发今日头条

测评狮 | 公众号 cpshi666

市面上很多配音工具或平台,想要完美的完成配音,都是需要花钱购买主讲人(配音角色)实例的。按次付费、按月付费、永久会员等形式,少则几十块钱,有的好的音色都要几百块钱了。

就算是免费的平台接口(类似于网页端百度翻译),也是有次数或文本长度限制的。

那么,有没有完全免费的配音平台或工具呢?

答案是肯定的。

(略过Python编程环境的搭建,这部分请网上自行探索如何搭建,开发编辑器工具建议使用轻量且免费的VSCode)

以下咱们就用AI助手,开发一款完全免费不受限制的配音工具。

选择编程语言,Python 是一个不错的选择,因为它有丰富现成的库和框架。提问AI“在Python中,有哪些流行的库可以用来实现文本到语音(TTS)的功能?”综合考虑,选择 edge-tts 这个库。让AI助手编写一个使用“edge-tts”库文本转语音的demo(示范)。基于demo,不断进行提问需要的扩展完善功能。先提问有哪些库可以实现文本转语音

AI所列出的库有多种,根据需要和使用环境,个人建议选择 edge-tts 这个库。因为这是利用了微软浏览器TTS“大声朗读”的免费接口,免费音色也很不错。

选择 edge-tts 库,并根据demo测试是否可用。如果可用,则开始让AI进行功能扩展。

通过 pip 安装 edge-tts,并不断测试AI助手给出的示例是否可用(AI也可能会犯错,请核查多次重试)。

这里贴出正确的代码示例:

根据正确的代码示例发现可用之后(生成的音频文件可播放),再进行下一步。

既然定位的是“配音工具”,肯定是需要输入文本、选择配音员(角色)和输出保存音频文件的,即文本→选择配音员→转换生成音频文件。

以上AI给出的demo只是简单地硬编码输入文本和配音角色ID以及生成"output.mp3"音频文件名。

我们需要的是用户交互模式:

选择输入的文本按需选择合适的配音员角色自定义音频文件名和保存目录将程序改成UI界面交互根据可用的demo进行功能扩展,改成GUI用户交互模式

直接向AI助手提出需求:

直接复制完整的代码示例放入VScode进行测试,发现可以完美弹出GUI用户交互的程序界面,可以选择输入要转换的文本、配音员角色以及保存音频按钮。

先不管配音员名称是否过长不好分辨,咱们先随意选择一个配音员进行测试这个程序是否可用。

细心的你应该可以看到,“保存音频”实际包括了保存文件路径和文本转换的过程,最后是直接弹出文件已保存的对话框,证明文件已生成了(看来AI助手把“自定义音频文件名和保存目录”合并成一个要求了)。

因为是随意选择的一个配音员,可能选择了其他国家的语音,所以播放的声音是“鸟语”听不懂。但没关系,这其实代表正确配音成功了,代码可用。

接下来就是完善功能,对配音选项和保存文件的逻辑进行修改

重新创建一个AI助手对话框(避免对话过长导致AI历史回顾混淆答非所问),完整复制之前的全部代码,让AI助手帮我们“折腾”。

不出预料,AI助手很给力,一下子就给出了修改方案,并贴出了修改后的完整代码:

复制→粘贴→运行,OK,又是一次性成功修改,看来这个AI助手真的很nice啊,完美理解我所提的要求,很是让人省心而不被气死。弹出的GUI程序界面如下:

废话不多说,马上进行测试。

可以看到配音员有很多,print()了一下总长度,多达318个配音员角色,多国语音随意挑!

输入文本后,选择的是“zh-TW-HsiaoChenNeural”,按照翻译就是:中国(台湾),晓晨,自然(情绪)。

依然一把过,完全可以正确转换,音频文件也正常可以播放。

最后,可根据个人需求修改GUI和选项显示名称

比如,我不太喜欢每次打开软件都需要先联网从微软免费API入口获取配音员,这造成一定的延迟(实际上是忽略不计,但总感觉如鲠在喉有瑕疵),所以就非心思将生成的配音列表根据标识一一对应,再扔给AI助手统一翻译成中文字典了,然后本地化加载配音员列表:

最后的最后,个人完善之后的文本转语音配音工具如下

(包括添加窗体图标标题《文本转语音工具(by cpshi666)、配音员中文显示、默认文件名、默认保存路径、可视化的转换生成进度条):

— 完 —

原创文章,未经允许切勿转载搬运洗稿,违者必究!

关注我,测评狮cpshi666。

0 阅读:0
科技推吖推吖

科技推吖推吖

感谢大家的关注