OpenAI深夜放大招：GPT-4o正式发布！奥特曼：媲美人类的表现力

为什么叫做GPT-4o？这里的「o」代表了英文单词：Omni，代表了全能。不得不说，生成式AI又朝着AGI迈出了一大步，正如OpenAI首席执行官Sam Altman所说：这是一个魔法一样的新功能。

关键是：GPT-4o的能力向免费用户开放（但会限制数量，免费用户达到数量之后，会自动跳回GPT-3.5）。

北京时间5月14日凌晨，OpenAI召开了一个不到30分钟的发布会，正式发布了新的AI模型：GPT-4o，除了可以给普通用户使用之外，还将开放相应API给GPT的开发者，比原来的GPT 4-Turbo 快 2 倍，价格便宜 50%。

已经支持50种语言。

首先，发布会展示了GPT-4o在实时语音对话上的表现。这次用户能够随时打断GPT-4o，随时插话，并获得AI模型的实时响应，不必在尴尬的等待2-3秒。

在对话过程中，GPT-4o可以捕捉到用户语音中蕴含的情绪，并根据这些情绪调整GPT-4o的AI语音风格，使之实现更加情绪化、戏剧化的表达，这个新升级，让GPT-4o更像是一个交流自然且具备共情能力的AI聊天机器人。

结合数据：GPT-4o 可以在 232 毫秒内回应用户的音频输入，这个速度已经非常接近人类交流时的反应时间。

接下来在多模态输入方面，GPT-4o提升了视觉信息的实时处理能力。

用户通过手机摄像头、实时共享屏幕等方式，就可以让GPT-4o扫描各种视觉信息，包括文本、图表、外部信息等等，与GPT-4o进行视频互动。

简单说，这就像是用户在给GPT-4o打“视频通话”，并在它的帮助下解决各类问题，比如说实时帮孩子辅导作业、扫描文件等等。GPT-4o可以通过摄像头捕捉用户表情，借此判断他此时的情绪，给出相应建议。

请注意，这里是指语音和视频的同时交互，所以说：GPT-4o对多模态交互的支持能力变得更强，使之更贴近一个全能型的个人智能助手。

在未来几周内，GPT-4o会逐步向所有人开放，与此同时，OpenAI还发布了ChatGPT的桌面版（首先是MacOS，Windows平台要在今年晚些时候发布）。

发布会后，OpenAI首席执行官Sam Altman表示：“新的语音（和视频）模式是我用过的最好的计算机界面。感觉（GPT-4o）就像电影中的人工智能；对我来说，它是真实的有点让人惊讶。（GPT-4o）可以达到媲美人类的响应时间和表现力被证明是一个很大的变化。”

没错，新的GPT-4o朝着更自然的人机交互又迈出了一大步。

当然，此时最开心应该还是微软。

世良情感网