OpenAI昨(30)日宣布可提供即时拟真AI语音的Realtime API降价,部分服务降价最高80%,并添加5种声音选择。
10月初公布预览版的Realtime API提供原生语音输入、语音输出的人声生成,中间无需文本转换,让开发人员得以打造支持多模态能力的AI聊天机器人。目前支持文本、语音的输出、输入,也支持函数调用。Realtime API可让开发商创造的AI聊天机器人和用户流畅对答就像真人。OpenAI Realtime原有5种人声,今天再增加5种新选择,强调提供AI助理更丰富表现力。
本周OpenAI还进一步降价Realtime API中缓存文本输入(cached text input)费用50%,缓存声音输入(cached audio input)更降价80%。缓存输入是Realtime API的一部分,可将提示中重复使用输入的字词缓存起来,可加速对谈过程中的提示处理速度、降低延迟性,而且节省API使用成本,不过只有输入1024字词以上的提示才适用缓存。
根据OpenAI的定价,使用缓存的Realtime API费用是未缓存的50%,详细价格则依访问的模型版本而异,降价前的价格从GPT-4o-mini的$0.075/百万字词,到o1-preview的$7.50/百万字词。