迅捷,快速的的AI语音对话机器人Bot

智能科技扫地僧 2024-07-01 16:32:36

在正常对话中,人类期望的快速响应时间通常为500毫秒,超过800毫秒的停顿会让人感觉不自然。

我们的突破

我们开发了一个世界上响应最快的语音聊天Bot,并提供给大家体验和使用。

点击这里在Cerebrium上体验我们的Demo

https://fastvoiceagent.cerebrium.ai

技术要点

将语音到文本(STT)模型、LLMs和文本到语音(TTS)模型组合在一起,使其像人类对话那样快速响应是一项复杂的任务。在优化响应时间时,以下技术驱动因素至关重要:

网络架构、AI模型的性能、语音处理逻辑

https://www.daily.co/videosaurus/websockets-and-webrtc

关键技术组件使用 WebRTC 将用户设备的音频发送到云端Deepgram 的快速转录(语音到文本)模型Llama 3 70B 或 8BDeepgram 的 Aura 语音(文本到语音)模型在同一个 Cerebrium 容器中自托管这三个AI模型(STT、LLM和TTS)

组件详情

WebRTC 是通过互联网发送音频和视频的最快、最可靠的方式。它优先考虑低延迟和快速适应不断变化的网络条件(如数据包丢失峰值)的能力。

详细介绍点击这里

地理位置优化 将用户连接到离他最近的服务器也很重要。(在旧金山和纽约之间往返发送一个数据包大约需要70毫秒,而从旧金山发送到圣何塞则需要不到10毫秒。)

集中部署 将语音机器人代码、LLM和TTS放在同一基础设施中,可为我们节省从网络请求到外部AI服务延迟达50-200毫秒。自行管理LLM和TTS模型还使我们能够对其进行调整和配置,从而进一步缩短延迟时间。

语音 AI 延迟总结

如果我们的目标是实现800毫秒的语音到语音延迟,那么我们的延迟“预算”中包含哪些项目呢?

语音响应循环中的处理步骤列表

如今,使用托管AI服务实现语音到语音延迟在2~4秒左右相对容易。如果你不在意延迟问题,有许多LLM可以通过API访问,并且具有500-1500毫秒的延迟。然而,如果你想实现快速、对话式的语音响应,那么利用当今的技术实现这一目标的最佳方式就是优化和集中部署主要的语音AI组件。

Demo 体验网页:

https://fastvoiceagent.cerebrium.ai/

代码:

https://github.com/CerebriumAI/examples/tree/master/18-realtime-voice-agent

0 阅读:0

智能科技扫地僧

简介:感谢大家的关注