即使在科技领域,Ai也是个全新的物种,研究它有种探索未知世界的恐惧感。
嘿,这是黑猫。随着AI自动驾驶、AI绘画、AI语音、AI大模型等应用的出现,AI开始真切地改变我们的生活,它终究是避不开的。
“AI”到底是什么?许多人会轻飘飘地跟你解释:AI就是人工智能,这个回答正确却无用。
很多人都和我一样,不关心AI的原理,只关心AI应用。大家都很现实,一个技术如果不能带来真正实用的价值,那只不过是空中楼阁,噱头已经见够多了。
而对普罗大众而言,目前能接触的AI工具,无非就是通义千问、文心一言、kimi、秘塔之类的AI语言大模型。它们可以帮忙写点文字,可以帮忙分析下资料,但无法真正取代工作本身。
因为AI太完美,太理性,太规矩了。人是理性的,但理性仅仅是冰山上浮现的一角。隐藏在底下的,是不可抑制的冲动,是无法掩盖的兽性,而都就是AI所欠缺的。
目前最强的AI文字转语音大家应该都刷到过AI配音的电影解说,这个男人叫小帅,这个女人叫小美。这些视频,无一例外都是由人工智能配音,语音包来源于微软Azure文字转语音。
你知道的,微软的文字转语音,是目前语气最接近真人说话,而且商用价格最低廉的AI应用。如果你是个人用户,且使用频率不高,甚至可以白嫖,之前我也写过一篇教程。
当然,微软的文字转语音不够自然,可选的中文语音库就那么几十个。而且它的发音,接近人类,却过于标准,听多了难免觉得厌倦。
今天,我们就解决这个问题。这篇文章将要全面科普一个开源项目:ChatTTS。
它在GitHub斩获了28.7K Star,是一个现象级的存在,甚至被誉为当下最强的AI文字转语音。
它利用了目前最先进的深度学习算法,在音调、情感表达、多语言识别方面极其出色,可以生成非常逼真的语音。
关键在于,微软Azure的语音模型不仅闭源,而且只能联网使用。而ChatTTS,是一个可以在本地部署的AI大模型。只要在电脑上部署好,硬件满足性能要求,就能永久免费实用。
最重要的是,随着版本更新到0.98,目前ChatTTS生成的语音,已经非常出色。如果我不告诉你,你甚至都不知道这是AI生成的语音。
下面这段语音,是我用自己写的文章,生成的一段语音,效果非常惊艳。它不仅可以精准传达文字,而且咬字节奏还很有个人特色。
这也就意味着,掌握这门技术,只要你想,你可以模拟任何人声。和往常一样,我们不仅会科普技术,还会给到具体的实操方法。
ChatTTS本地部署教程怎么在Windows电脑上部署ChatTTS语音模型?这个东西还是有门槛的。开发者提供的方法,需要调用大量代码,很难大面积普及。
而我们的目标,是让普通人也能掌握最新的科技。这篇教程,我们提供的是一键部署的安装包,和配套的运行库。一共只需要两步,电脑小白也能轻松上手。
在Windows上部署ChatTTS,只需要两步:1,安装ffmpeg,2,安装ChatTTS。
ChatTTS完全是凭借机能实现的,无需联网。一段30秒的音频生成,需要4GB显存以上的独立显卡才能完成。没独显的话,就只能调用CPU,速度会慢些——但不是不能用。
只要你的电脑不是太老,运行起来是没问题的。需要用到的软件,工具,我都打包好了,获取方式拉到文章底部。
1)安装FFmpeg
说明:FFmpeg是一个开源的多媒体框架,在ChatTTS中主要用来录制、转换和传输音频,部署前毕竟安装它,否则无法运行。
1,下载我准备的最新压缩包,解压到C盘(系统盘)的Program Files文件夹里,地址是“C:\Program Files\ffmpeg”。
2,打开“ffmpeg” -> “bin” ,在文件路径处按下右键,点击复制地址。我的是“C:\Program Files\ffmpeg\bin”,记住一定是“bin”的路径,这个地址很重要,后面要用到。
3,Windows搜索框,直接搜索“环境变量”进入,接着再点点环境变量。
如果是旧系统搜不到,那就右键打开我的电脑,打开“系统属性” -> “高级系统设置” -> “环境变量”。
4,在下半页部分,依次打开“环境变量” -> 系统变量” -> “path”。在编辑环境变量页面里,点击新建,然后把刚才复制的地址,“C:\Program Files\ffmpeg\bin”,复制进去,然后点确定。
5,验证ffmpeg是否安装好(可做可不做),打开Windows系统的命令提示符,输入ffmpeg -version,验证ffmpeg是否安装成功。如果成功,则会看到下面这张图。
好了,到这一步就大功告成了。ffmpeg的安装比较复杂,但是不亏。它同时也是个视频、音频处理神器,功能极其强悍,这里不多介绍。
2)安装ChatTTS
这个版本是ChatTTS 0.98最新版的一键本地部署包,已经全部打包好,解压即可使用。
1,下载ChatTTS压缩包,随便找一个硬盘,解压进去。
2,打开解压好的文件,点击“APP”这个文件,启动ChatTTS。
3,如果ffmpeg已经顺利安装好,则会直接启动命令行,这就是ChatTTS的本体。
4,之后,浏览器会自动弹出ChatTTS的前端页面,界面非常简单,只有核心功能。别看页面简陋,所有涉及文字转语音的设置都在里面,技术至上的产品是这样的。ChatTTS已经安装好了,使用方法也很简单。为了减少大家摸索的成本,下面做个基础教程。
四,ChatTTS基础教程1,首先在文本框,输入你要转换成语音的文字。注意标点符号要规范,因为它会基于标点符号,判断应该如何发音。
2, 接下来选一个音色,它预装了几十种音色,你可以直接选择,试听。
3,ChatTTS强大的地方在于,它可以自己自定义“音色”,也就是“音色抽卡”。我比较常用的是2222,9999,这里在音色值里,输入一个数字,就能定位到我们想要的声音。4,语速、温度这些参数调一下,点击立即合成。接下来,ChatTTS就会在后台自动处理。显卡越强,则处理速度越快。我用的是4060TI,速度大概是10秒处理30个字左右。
以上就是ChatTTS的基础使用方法,其实ChatTTS今年6月刚出来的时候,我就用了,当时存在音色不稳定、无法批量生成的BUG。我认为不实用,就没有进行讲解。
而最新的0.98版本更新了内核,我之前遇到的问题,都修复了不少,现阶段基本可以拿来当生产力工具使用。
唯一的遗憾是,因为声音太逼真,开发者为了规避风险略微降低了音质。但这其实不是问题,用剪映后期处理一下就很不错了——用来制作视频,效果接近完美。大家可以对比一下。
最后是ChatTTS的一键安装包,获取方式:公众号【黑猫科技迷】发送关键词:TTS。
更