本地部署语音合成大模型具有以下几个重要原因:
数据隐私和安全性:在本地部署可以更好地控制数据的访问和使用,确保敏感信息不会被传输到外部服务器,降低数据泄露的风险。例如,企业内部的机密文档需要转换为语音时,本地部署能保证这些数据的安全性。
定制化和灵活性:能够根据特定的需求和场景进行定制化调整和优化。比如,某些行业可能对语音的音色、语速、语调有独特的要求,本地部署可以更精准地满足这些特殊需求。
低延迟和高稳定性:避免了网络延迟带来的影响,提供更流畅、实时的语音合成服务。特别是在网络不稳定的环境中,本地部署能够保证服务的连续性和稳定性。例如,在一些对实时性要求极高的生产环境中,如自动化控制系统。
节省成本:长期来看,对于大量的语音合成需求,本地部署可能会节省与云端服务提供商的持续交互所产生的费用。
自主可控性:不受外部服务提供商的政策、技术变更或服务中断的影响,能够完全自主地管理和维护语音合成系统。
开源项目网址https://github.com/FunAudioLLM/CosyVoice
Demoweb界面
生成的音频
暂时无法在飞书文档外展示此内容
部署流程本案例部署的环境:
宿主机:Windows11企业版
wsl2安装Ubuntu,默认Ubuntu系统
提前准备:
安装anaconda安装git安装git lfs步骤:
克隆并安装
Clone the repo 克隆存储库git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git创建python环境并激活
conda create -n cosyvoice python=3.8conda activate cosyvoice# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.conda install -y -c conda-forge pynini==2.1.5pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.comModel download 模型下载
# git模型下载,请确保已安装git lfsmkdir -p pretrained_modelsgit clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300Mgit clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFTgit clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instructgit clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd或者,您可以解压缩 ttsfrd 资源并安装 ttsfrd 包以获得更好的文本规范化性能。
请注意,此步骤不是必需的。如果您不安装 ttsfrd 包,我们将默认使用 WeTextProcessing。
cd pretrained_models/CosyVoice-ttsfrd/unzip resource.zip -d .pip install ttsfrd-0.3.6-cp38-cp38-linux_x86_64.whl基本用法
对于zero_shot/cross_lingual推理,请使用 CosyVoice-300M 模型。对于SFT推理,请使用CosyVoice-300M-SFT模型。对于指示推理,请使用 CosyVoice-300M-Instruct 模型。首先,将 third_party/Matcha-TTS 添加到您的 PYTHONPATH 中。
export PYTHONPATH=third_party/Matcha-TTS开始 Web 演示
您可以使用我们的网络演示页面来快速熟悉 CosyVoice。我们在 Web 演示中支持 sft/zero_shot/cross_lingual/instruct 推理。
# change iic/CosyVoice-300M-SFT for sft inference, or iic/CosyVoice-300M-Instruct for instruct inferencepython3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M打开浏览器,输入网址:http://localhost:50000/
在输入合成文本栏,输入文字,如上:
本地部署语音合成大模型具有以下几个重要原因:
数据隐私和安全性:
在本地部署可以更好地控制数据的访问和使用,确保敏感信息不会被传输到外部服务器,降低数据泄露的风险。例如,企业内部的机密文档需要转换为语音时,本地部署能保证这些数据的安全性。
点击“生成音频”,几秒钟后,即可成功生成。音频如下:
如果能正常合成,恭喜你,部署成功了!
欢迎关注、点赞、收藏,后续有更多技巧分享,如克隆声音、多国语言语言生成等。