OpenAI在一场名为“OpenAI春季更新”的YouTube直播中展示了新功能,这场直播由OpenAI的首席技术官Mira Murati以及员工Mark Chen和Barret Zoph共同主持。直播中,他们不仅宣布了新消息,还现场演示了GPT-4o的实际运作,包括它的音频对话和视觉理解能力。这让观众能直接看到和听到GPT-4o如何使用这些新增的高级功能进行交互。
OpenAI宣称,GPT-4o对音频输入的平均响应时间约为320毫秒,这与2009年一项研究中提到的人类对话时的反应时间相近,比以往模型常见的2到3秒延迟要短得多。OpenAI表示,他们通过一种全新的方式训练了GPT-4o模型,这种方式从头到尾集成了文本、视觉和音频的处理,使得所有输入和输出都是由同一个神经网络处理的。这样的设计让GPT-4o能在不同类型的感官信息之间更加无缝地工作,提高了交互的实时性和自然度。
演讲者还特别强调了GPT-4o增强的视觉理解能力。用户只需上传截图、包含文字和图片的文档或图表,就可以与GPT-4o围绕这些视觉内容进行对话,并获得它提供的数据分析。在直播演示中,这款AI助手展现了分析自拍照、识别情绪的能力,甚至还能就图片内容进行轻松幽默的交谈。
此外,GPT-4o在超过50种语言上的速度和质量也有所提升,OpenAI表示这覆盖了全球97%的人口。该模型还展示了其实时翻译的能力,几乎可以瞬间完成不同语言使用者之间的对话翻译,极大地促进了跨语言交流。
OpenAI最初在2023年9月向ChatGPT引入了语音对话功能,该功能利用了Whisper这一人工智能语音识别模型进行输入,并采用了定制的声音合成技术进行输出。在此之前,OpenAI的多模态ChatGPT界面操作涉及三个步骤:转录(从语音到文本)、智能处理(将文本作为标记处理)和文本转语音,每一步都会增加延迟。而GPT-4o据称能同时完成所有这些步骤,正如Murati所描述的那样,它能“跨越语音、文本和视觉进行推理”。
在直播中,屏幕上显示的一张幻灯片背后,他们将此称为“全功能模型”。OpenAI宣布,GPT-4o将面向所有ChatGPT用户开放,付费订阅用户可享受免费用户速率限制的五倍。以API形式提供的GPT-4o据说将比GPT-4 Turbo的速度快两倍,成本降低50%,并且速率限制提高五倍。(目前,GPT-4o仅作为文本模型在ChatGPT中可用,音频和视频功能尚未上线。)
直播中展示的功能,以及OpenAI网站上众多视频中所呈现的,让人回想起2013年科幻电影《她》中的对话式AI助手。在这部电影中,主角对AI个性产生了个人情感依恋。鉴于OpenAI的GPT-4o所展现出的模拟情感表达能力(可以说是人工情感智能),人们与OpenAI的助手建立起类似的情感联系并非不可想象,过去我们已经在某些情况下见证过类似情况。
Murati承认,GPT-4o的实时音频和图像功能在安全方面带来了新的挑战,并表示公司将继续在接下来几周的迭代部署过程中,研究安全问题并征求测试用户的反馈。
OpenAI表示:“GPT-4o已经接受了来自70多名外部专家的广泛外部红队测试,这些专家涉及社会心理学、偏见与公平性、以及误导信息等领域,旨在识别新增模态所带来的或放大的风险。我们利用这些学习成果来构建我们的安全干预措施,以提高与GPT-4o互动的安全性。我们将继续发现并缓解新出现的风险。”
周一的时候,OpenAI还公布了几项ChatGPT的更新。其中一个是为macOS系统设计的ChatGPT桌面应用,已经开始向部分ChatGPT Plus订阅用户小范围推送了,之后几周会更广泛地开放给更多用户。OpenAI还优化了ChatGPT的界面,增加了新的首页和信息布局,让使用起来更顺手。
再说说上面稍微提过的GPT-4o模型,一旦它普及开来,ChatGPT的免费用户也能享受到一些以前只有Plus、团队和企业版用户才能用的功能,比如网页浏览、数据分析、GPT商店以及记忆功能。这样一来,免费用户也能体验到更多强大和便利的功能了。