chatTTS是一款强大的对话式文本转语音模型,它有中英混读和多说话人的能力,可以配置为中文,英文,日文等六种语言。
ToucanTTS,开源的文本转语音,支持超过7000种语言的语音合成,具备多说话人语音合成功能,能够模拟多种说话人的节奏、重音和语调。
Fish Speech,完美支持中英日语言的开源TTS模型,语音处理接近人类水平,模型使用约十五万小时三语数据训练,对中文支持非常的完美。
FunAudioLLM,阿里开源的TTS模型,人与人LLMs之间自然交互的语音理解和生成。
Parler-TTS 是一种轻量级文本转语音 (TTS) 模型,可以按照给定说话者的风格(性别、音调、说话风格等)生成高质量、自然的语音。
F5-TTS,上交大/剑桥开源的TTS,零样本声音克隆,推理实时率达到0.15,支持控制语音速度,支持无缝在不同语言/方言间平滑过渡。
MaskGCT,零样本文本转语音,完全非自回归的 TTS 模型,支持跨语言翻译配音、语音克隆、语言转换、情感控制等。
Smol TTS,开源的基于 LLaMa 架构构建的TTS 模型,零样本语音克隆。
Kokoro,开源的TTS模型,8200 万个参数,在 <100 小时的音频上进行训练,支持多种语言。
OuteTTS,开源的文本到语音模型,支持六种语言,英语(en)、日语(jp)、韩语(ko)、中文(zh)、法语(fr)和德语(de),通过添加标点符号支持,显著增强了语音合成的自然性和连贯性,提高了生成语音的流畅性和清晰度。
Llasa,开源的零样本语音克隆和 TTS 模型,可以仅从输入文本生成语音,或者利用给定的语音提示生成语音。
平台限制无法发布链接,请移步沃图社查看。