已预览一年,OpenAI语音克隆服务VoiceEngine仍未正式推出

IT之家 2025-03-07 17:02:09

IT之家3月7日消息,去年三月底,OpenAI宣布了一项名为VoiceEngine(声音引擎)的人工智能服务的“小规模预览”,声称该技术能够在仅需15秒语音的情况下克隆一个人的声音。然而,近一年过去,这项工具仍未正式推出,OpenAI也未透露其是否会全面上线,以及何时上线。

OpenAI对于VoiceEngine的谨慎态度,可能源于对技术被滥用的担忧,也可能是为了避免引发监管审查。该公司此前曾被指责过于注重“亮眼产品”,而忽视安全性,并且急于赶在竞争对手之前发布产品。

OpenAI发言人在接受TechCrunch采访时表示,公司仍在与有限的“可信合作伙伴”一起测试VoiceEngine。该发言人称:“我们正在从合作伙伴对技术的使用中学习,以提升模型的实用性和安全性。我们很高兴看到它被应用于多种场景,包括语音治疗、语言学习、客户支持、游戏角色以及AI虚拟形象等。”

据IT之家了解,VoiceEngine是OpenAI文本转语音API和ChatGPT语音模式背后的技术,能够生成与原始说话者极为相似的自然语音。该工具将书面文字转换为语音,同时在内容方面设置了某些限制。然而从一开始,VoiceEngine的发布就遭遇了延迟和发布时间窗口的不断变化。

根据OpenAI在2024年6月的一篇博客文章,VoiceEngine模型通过学习预测说话者在给定文本转录中可能发出的声音,考虑不同的声音、口音和说话风格,从而生成文本的语音版本,以及反映不同类型说话者朗读文本的“语音表达”。

最初,OpenAI计划在2024年3月7日将VoiceEngine(当时名为CustomVoices)引入其API,并计划让最多100名“可信开发者”提前使用,优先考虑那些开发具有“社会价值”或展示“创新和负责任”技术应用的应用程序的开发者。OpenAI还为该服务设定了价格:“标准”语音每百万字符收费15美元,“高清”语音每百万字符收费30美元。然而,在最后一刻,公司推迟了发布。几周后,OpenAI在没有提供注册选项的情况下发布了VoiceEngine,仅允许2023年底开始合作的约10名开发者使用。

2024年3月,OpenAI在VoiceEngine的发布博客中表示:“我们希望就合成语音的负责任部署以及社会如何适应这些新能力展开对话。基于这些对话和小规模测试的结果,我们将就是否以及如何大规模部署这项技术做出更明智的决策。”

据OpenAI介绍,VoiceEngine自2022年起就开始研发。该公司声称在2023年夏天向全球最高层级的政策制定者展示了该工具的潜力和风险。目前,包括Livox在内的几家合作伙伴已经可以使用VoiceEngine。Livox是一家致力于为残疾人开发更自然沟通设备的初创公司。其首席执行官卡洛斯・佩雷拉(CarlosPereira)告诉TechCrunch,尽管由于VoiceEngine的网络要求(许多Livox的客户没有互联网接入),他们无法将该技术整合到产品中,但他认为这项技术“令人印象深刻”。

佩雷拉通过电子邮件向TechCrunch表示:“语音的质量以及语音能够以不同语言说话的可能性是独一无二的——尤其是对于我们的客户,即残疾人。这是我见过的最令人印象深刻且易于使用的创建语音的工具。我们希望OpenAI尽快开发出离线版本。”他补充说,他尚未收到来自OpenAI关于VoiceEngine可能发布的任何指导,也没有看到该公司计划开始收费的迹象。目前,Livox的使用尚未产生任何费用。

在2024年6月的博客文章中,OpenAI暗示延迟发布VoiceEngine的原因之一是担心该技术可能在去年美国选举周期中被滥用。基于与利益相关者的讨论,VoiceEngine采取了多项安全措施,包括为生成音频添加水印以追溯其来源。

根据OpenAI的说法,开发者在使用VoiceEngine之前必须获得原始说话者的“明确同意”,并且必须向其受众“明确披露”语音是由AI生成的。然而,该公司尚未说明如何执行这些政策。即使对于拥有OpenAI资源的公司来说,大规模执行这些政策也可能极具挑战性。

在博客文章中,OpenAI还暗示希望开发一种“语音认证体验”以验证说话者身份,并建立一个“禁止清单”,防止创建与知名人士声音过于相似的语音。这两个项目在技术上都极具雄心,如果处理不当,将对一家常被指责忽视安全举措的公司造成负面影响。

随着AI语音克隆技术的快速发展,有效的过滤和身份验证正迅速成为负责任发布语音克隆技术的基本要求。据相关报道,AI语音克隆是2024年增长最快的第三大诈骗手段,导致了欺诈行为的增加和银行安全检查被绕过,而隐私和版权法律则难以跟上其发展速度。恶意行为者利用语音克隆技术制作名人和政客的煽动性深度伪造视频,并在社交媒体上迅速传播。

OpenAI可能在下周推出VoiceEngine,也可能永远不会推出。该公司多次表示,正在考虑将服务保持在较小范围内。但有一点是明确的:无论是出于形象考虑还是安全原因,VoiceEngine的有限预览已成为OpenAI历史上最长的一次。

0 阅读:5