20万颗GPU“烧出”Grok3，马斯克称地表最强，真有这实力？

在科技飞速发展的今天，人工智能领域的每一次突破都能引发全球关注。马斯克旗下xAI推出的Grok3，无疑是近期最受瞩目的焦点。它自称为“地表最聪明”，纸面数据更是号称吊打各家模型，一时间在科技圈掀起轩然大波。

那么，Grok3究竟实力如何？是实至名归的人工智能新霸主，还是只是一场过度吹嘘的闹剧？

Grok3在推出时，就以一系列惊人的数据震撼了世人。

它是首个突破1400分的模型，更是首个在10万卡集群训练出来的模型。在Benchmark基准测试中，Grok3的表现堪称亮眼。

在非推理模型的对比中，Grok3和Grok3MiniXai与Gemini2.0Pro、DeepseekV3、Claude3.5Sona以及GPT4O进行较量。在M2次数学竞赛、GPQA和代码三项测试中，Grok3的成绩一骑绝尘，远远高出其他模型。

即便如Grok3MINI，虽然在准确性上有所牺牲以换取更快的回答速度，但水平也和其他模型不相上下。

在ChatbotArena的盲测中，Grok3的早期版本“巧克力”更是登上榜首，史无前例地突破了1400分，在整体风格控制、编码数学还有创意写作等多个方面均斩获第一。

而在推理模型的测试中，XAI派出groQ3reasoningBeta和groQ3Minireasoning迎战OpenAI的O1系列othreeMini以及DeepseekR1。

在加入testtimecompute（即给模型更多时间思考）的情况下，Grok3的两个推理模型优势尽显。柱状图上浅色部分显示的加时赛成绩表明，Grok3的推理模型思考时间越久，表现就越好。

马斯克在现场展示的Grok3推理模型在2025年m数学竞赛上的测试结果也证明了这一点。

马斯克在发布会上的现场演示，更是让人们看到了Grok3的强大潜力。

当要求Grok3生成3D动画代码时，模型能够一步步展示思考过程，尽管这一过程被模糊处理以防止模型被抄袭。生成的代码可以模拟从地球发射飞船到火星并返回的完整过程，这一任务涉及大量复杂的数学和物理计算，Grok3却能成功完成，其强大的代码生成能力可见一斑。

此外，Grok3还展示了出色的游戏开发能力。

它能够生成一个结合俄罗斯方块和宝石迷阵两种游戏规则的新游戏。如果这种游戏制作能力真的如演示的一样强大，无疑将给游戏开发领域带来巨大的变革。

基于Grok3构建的DeepSearch智能搜索引擎，也展现出独特的优势。

当用户询问下一次新建发射的时间时，左边会显示进度条，右边则展示浏览了哪些网页、对哪些信源进行了验证，最后给出准确答案。这种深度搜索和信息验证的能力，为用户提供了更加可靠的信息获取方式。

尽管Grok3有着惊艳的数据和出色的演示，但它并非没有受到质疑。

在一些抢先体验的用户分享中，出现了不少与宣传不符的实际测试案例。

有用户用同一组prompt测试Grok3、O3mini和clock3.5sonnet，结果Grok3表现不佳，甚至出现翻车的情况。在另一组测试中，O3mini的表现也优于Grok3。

这表明，Grok3在实际应用中，可能并没有宣传中那么强大。

另外，Grok3上线后，很多人关注其是否开源。马斯克表示，XCI通常是新模型发布后再开源旧模型，这意味着即使开源，也只是老版的Grok2。

这一做法也引发了开源阵营的不满，毕竟开源对于推动人工智能技术的发展和普及有着重要意义。

Grok3的出现，无疑为人工智能领域注入了新的活力。它强大的性能和潜力，让人们看到了人工智能发展的新方向。然而，其在实际测试中暴露的问题，也提醒我们要保持理性和客观。

在未来，Grok3能否真正成为人工智能的新霸主，还有待时间的检验。

而已经在x上预告的GPT4.5，又能否在这场人工智能的较量中打一场翻身仗？让我们拭目以待。

相信随着技术的不断发展和完善，人工智能将在更多领域发挥出巨大的作用，为我们的生活带来更多的惊喜和改变。

文本来源@差评君的视频内容