为什么叫做GPT-4o?这里的「o」代表了英文单词:Omni,代表了全能。不得不说,生成式AI又朝着AGI迈出了一大步,正如OpenAI首席执行官Sam Altman所说:这是一个魔法一样的新功能。
关键是:GPT-4o的能力向免费用户开放(但会限制数量,免费用户达到数量之后,会自动跳回GPT-3.5)。
北京时间5月14日凌晨,OpenAI召开了一个不到30分钟的发布会,正式发布了新的AI模型:GPT-4o,除了可以给普通用户使用之外,还将开放相应API给GPT的开发者,比原来的GPT 4-Turbo 快 2 倍,价格便宜 50%。
已经支持50种语言。
首先,发布会展示了GPT-4o在实时语音对话上的表现。这次用户能够随时打断GPT-4o,随时插话,并获得AI模型的实时响应,不必在尴尬的等待2-3秒。
在对话过程中,GPT-4o可以捕捉到用户语音中蕴含的情绪,并根据这些情绪调整GPT-4o的AI语音风格,使之实现更加情绪化、戏剧化的表达,这个新升级,让GPT-4o更像是一个交流自然且具备共情能力的AI聊天机器人。
结合数据:GPT-4o 可以在 232 毫秒内回应用户的音频输入,这个速度已经非常接近人类交流时的反应时间。
接下来在多模态输入方面,GPT-4o提升了视觉信息的实时处理能力。
用户通过手机摄像头、实时共享屏幕等方式,就可以让GPT-4o扫描各种视觉信息,包括文本、图表、外部信息等等,与GPT-4o进行视频互动。
简单说,这就像是用户在给GPT-4o打“视频通话”,并在它的帮助下解决各类问题,比如说实时帮孩子辅导作业、扫描文件等等。GPT-4o可以通过摄像头捕捉用户表情,借此判断他此时的情绪,给出相应建议。
请注意,这里是指语音和视频的同时交互,所以说:GPT-4o对多模态交互的支持能力变得更强,使之更贴近一个全能型的个人智能助手。
在未来几周内,GPT-4o会逐步向所有人开放,与此同时,OpenAI还发布了ChatGPT的桌面版(首先是MacOS,Windows平台要在今年晚些时候发布)。
发布会后,OpenAI首席执行官Sam Altman表示:“新的语音(和视频)模式是我用过的最好的计算机界面。感觉(GPT-4o)就像电影中的人工智能;对我来说,它是真实的有点让人惊讶。(GPT-4o)可以达到媲美人类的响应时间和表现力被证明是一个很大的变化。”
没错,新的GPT-4o朝着更自然的人机交互又迈出了一大步。
当然,此时最开心应该还是微软。