在科技飞速发展的今天,人工智能领域的每一次突破都能引发全球关注。马斯克旗下xAI推出的Grok3,无疑是近期最受瞩目的焦点。它自称为“地表最聪明”,纸面数据更是号称吊打各家模型,一时间在科技圈掀起轩然大波。

那么,Grok3究竟实力如何?是实至名归的人工智能新霸主,还是只是一场过度吹嘘的闹剧?
01Grok3在推出时,就以一系列惊人的数据震撼了世人。
它是首个突破1400分的模型,更是首个在10万卡集群训练出来的模型。在Benchmark基准测试中,Grok3的表现堪称亮眼。
在非推理模型的对比中,Grok3和Grok3MiniXai与Gemini2.0Pro、DeepseekV3、Claude3.5Sona以及GPT4O进行较量。在M2次数学竞赛、GPQA和代码三项测试中,Grok3的成绩一骑绝尘,远远高出其他模型。

即便如Grok3MINI,虽然在准确性上有所牺牲以换取更快的回答速度,但水平也和其他模型不相上下。
在ChatbotArena的盲测中,Grok3的早期版本“巧克力”更是登上榜首,史无前例地突破了1400分,在整体风格控制、编码数学还有创意写作等多个方面均斩获第一。
而在推理模型的测试中,XAI派出groQ3reasoningBeta和groQ3Minireasoning迎战OpenAI的O1系列othreeMini以及DeepseekR1。
在加入testtimecompute(即给模型更多时间思考)的情况下,Grok3的两个推理模型优势尽显。柱状图上浅色部分显示的加时赛成绩表明,Grok3的推理模型思考时间越久,表现就越好。
马斯克在现场展示的Grok3推理模型在2025年m数学竞赛上的测试结果也证明了这一点。
02马斯克在发布会上的现场演示,更是让人们看到了Grok3的强大潜力。
当要求Grok3生成3D动画代码时,模型能够一步步展示思考过程,尽管这一过程被模糊处理以防止模型被抄袭。生成的代码可以模拟从地球发射飞船到火星并返回的完整过程,这一任务涉及大量复杂的数学和物理计算,Grok3却能成功完成,其强大的代码生成能力可见一斑。
此外,Grok3还展示了出色的游戏开发能力。

它能够生成一个结合俄罗斯方块和宝石迷阵两种游戏规则的新游戏。如果这种游戏制作能力真的如演示的一样强大,无疑将给游戏开发领域带来巨大的变革。
基于Grok3构建的DeepSearch智能搜索引擎,也展现出独特的优势。
当用户询问下一次新建发射的时间时,左边会显示进度条,右边则展示浏览了哪些网页、对哪些信源进行了验证,最后给出准确答案。这种深度搜索和信息验证的能力,为用户提供了更加可靠的信息获取方式。
尽管Grok3有着惊艳的数据和出色的演示,但它并非没有受到质疑。

在一些抢先体验的用户分享中,出现了不少与宣传不符的实际测试案例。
有用户用同一组prompt测试Grok3、O3mini和clock3.5sonnet,结果Grok3表现不佳,甚至出现翻车的情况。在另一组测试中,O3mini的表现也优于Grok3。
这表明,Grok3在实际应用中,可能并没有宣传中那么强大。
另外,Grok3上线后,很多人关注其是否开源。马斯克表示,XCI通常是新模型发布后再开源旧模型,这意味着即使开源,也只是老版的Grok2。

这一做法也引发了开源阵营的不满,毕竟开源对于推动人工智能技术的发展和普及有着重要意义。
Grok3的出现,无疑为人工智能领域注入了新的活力。它强大的性能和潜力,让人们看到了人工智能发展的新方向。然而,其在实际测试中暴露的问题,也提醒我们要保持理性和客观。
在未来,Grok3能否真正成为人工智能的新霸主,还有待时间的检验。
而已经在x上预告的GPT4.5,又能否在这场人工智能的较量中打一场翻身仗?让我们拭目以待。
相信随着技术的不断发展和完善,人工智能将在更多领域发挥出巨大的作用,为我们的生活带来更多的惊喜和改变。
文本来源@差评君 的视频内容