凌晨4点半,孙智坐在电脑前,盯着屏幕上闪烁的倒计时。
她昨晚只睡了两小时,这都为了等OpenAI的新发布会。
身边的咖啡已经喝了第三杯,她很清楚,这场发布会她绝对不能错过。
毕竟,这是GPT4.5的专场。
GPT4.5:相隔两年的新发布发布会终于开始了,OpenAI创始人出现在屏幕前,虽然神色疲倦,但言辞依然坚定。
他们详述了GPT4.5的升级之处,借助多模态和全新的推理能力,一切听起来都很美好。
环顾四周,一个破旧的演播室,一切显得有些寒酸。
孙智回忆起两年前,GPT4发布时的盛况,布罗克曼的多模态演示让人震撼不已。
这次的发布,似乎少了几分当年的激情。
AIME 2024评测的诡异现象真正让孙智思考的,是接下来公布的数据。
在AIME 2024评测中,GPT4.5的得分为36.7%,比GPT4o高出不少。
她发现了一些奇怪的事情:过去,GPT4o的得分是13.4%,现在却下降到9.3%。
为什么分数会突然降低?
更诡异的是,o3-mini(high)竟然拿到了惊人的87.3%。
这些数据引发了她的怀疑,难道评测的标准或模型的性能发生了变化?
里面的玄机值得去探究。
这些谜团还不是最让孙智震撼的。
价格公布的一刻,她简直不敢相信自己的眼睛。
每百万次输入75美元,输出150美元,这比竞争对手Claude 3.7的价钱高出了数十倍,真正是DeepSeek的280倍。
咖啡杯在她手中微微颤动着,她心中疑惑:OpenAI凭什么?
这定价到底有何底气?
再怎么说,Claude 3.7的表现也不差,而价格却亲民很多。
用户体验与模型的潜在问题发布会结束,孙智迫不及待地体验了GPT4.5。
她希望这高昂的价格能带来一些惊喜,结果并没有她想象中的理想。
识图、搜索、画布都支持了,但4o的语音、视频、共享屏幕等功能都不见了。
历史问题时,模型非要开搜索回答,简直让人摸不着头脑。
相比4o,他们声称提升了情商,可在一些逻辑问题上的表现却让人失望——情商上去了,智商仿佛降了下来。
孙智试着写了几个故事,用GPT4.5来生成。
结果不仅速度慢,质量也不如预期。
这让她开始怀疑,OpenAI到底在这一年里做了什么?
反之,DeepSeek的表现却在稳步提升。
这不禁让她感叹,高价格、高期待,却带来低回报,真是让人无奈。
结尾,孙智深呼吸一口气,感觉自己对OpenAI的崇敬之情也消散了许多。
当初,大家为GPT-4惊叹不已,今天的GPT4.5却没能再带来同样的震撼。
他们是继续走高端路线呢,还是会调整策略,适应市场的需求?
没人知道。
但有一点毋庸置疑:时代再怎样变化,用户的期待和市场的检验是最真实的。
未来的AI之路,不是谁的噱头更吸引人,而是谁真正能为人们提供有价值的服务。
就像跑马拉松,只有永远向前,才能不被超越。
孙智合上电脑,心想,也许是时候把目光投向别的地方了。
未来,或许会有更多惊喜,而不是一再的失望。
她离开桌前,打算好好睡一觉,明天的日子还长,探索的路也远。