世良情感网

让所有文本大模型瞬间变身你的私人语音助手! 法国AI实验室Kyutai再次推出开

让所有文本大模型瞬间变身你的私人语音助手! 法国AI实验室Kyutai再次推出开源语音新模型:Unmute,采用级联系统,无需微调即可为任意LLM赋予语音交互能力。 去年,Kyutai曾以一款接近GPT-4o效果的开源AI语音助手Moshi引发了业界关注。 本次发布的Unmute,其内置的STT和TTS模型均针对低延迟优化进行了设计: STT(语音转文本)采用流式处理,并集成了语义化语音活动检测,无需依赖外部模型,确保语音输入的即时性和准确性。 TTS(文本转语音) 支持音频与文本双流式处理。在LLM尚未生成完整回复时,Unmute就能开始响应,大大减少了等待时间。 实际使用起来,能感受到这些比较出色的细节: 智能判断对话停顿点:精准识别用户是结束了发言还是只是句中停顿,让对话更自然。 音色克隆:仅需10秒的语音样本,即可克隆特定音色和语调,实现高度个性化。 超低延迟响应:能够在生成完整文本响应之前就开始说话,显著提升交互流畅度。 Kyutai官方表示,未来几周内将开源包括模型、网页的全部内容,可以期待一下~ 现在想尝试的朋友,可以通过官网: