果不其然！才过几天，世界第一易主！

强堆算力，把Grok往死里磕！！不到地表最强决不罢休，至少也要把奥特曼那小子按着摩擦。Gemini 2.0推理模型才称王10来天，马斯克带着他的Grok-3，号称当今地球上最聪明的AI与大家见面了。

- 文章信息 -

本文由e-works祖哥综合报道。

还记得10天前左右，笔者才发布的「Google DeepMind宣布：全球最强AI模型正式发布！Gemini用户可免费使用」这篇文章吧，结尾处我写下了这么一段话：

仅仅才过10来天，马斯克带着他的Grok-3，号称当今地球上最聪明的AI与大家见面了。

依然是根据lmarena.ai里面的评测平台——Chatbot Arena的最新评分排行榜（数据到2月16日），早期版本的Grok-3（代号“chocolate”）一骑绝尘，超越了Google的Gemini-2.0-Flash-Thinking-Experimental，现在在竞技场中排名第一。且是第一个也是目前唯一一个突破1400分的模型；在所有类别中排名第一，这是一个越来越难以达成的里程碑！

与此同时，开源大模型Deepseek-R1的分数排位又被向下挤了一位，但仍位于Top5，含金量依然非常高。

目前，就笔者了解到的信息，需要X应用Premium+的订阅用户才能尝鲜Grok-3。这一点，相较于上次Google的Gemini可免费使用最先进模型的操作手法来看，Grok-3就显得不是那么“友好”了。

不过，笔者依然有方法，可以让大家抢先体验Grok-3尝鲜版。那就是到Chatbot Arena中点击Direct Chat选项卡，选中early-grok-3即可免费体验。

由于这是一个开放的大语言模型竞技场评测平台，必然会提供给用户试用入口，才能根据测试结果给出相应的评价来形成排行榜。依然丢给它这个老生常谈的简单问题，让它用推理模式回答——“Deepseek这个单词中有几个e？”的问题。

如果大家没记错，上次Grok-2回答的结果是两个“e”，包括我后来多次测试依然回答的是两个“e”。不过early-grok-3用推理模式就轻松且快捷的给出了这个问题的答案：

强大的智能需要强大的计算能力（Big intelligence requires big compute）。马斯克和他的xAI依然坚定Scaling Law不动摇。左边这位兄弟说到：xAI如果想打造地表最强AI，在去年4月那个节骨眼上，唯一路径就是建立大型数据中心。

据发布活动介绍：时间紧，任务重，竞争激烈。他们并没有太多时间，用122天也就是4个月的时间打造了一个10万GPUs集群。Grok-3使用了100,000个Nvidia H100 GPU，在位于田纳西州孟菲斯的Colossus超级集群上进行训练。事实上，他们并没有停止脚步，而是准备再用92天约3个月的时间，把数据中心容量翻倍，最终达到20万的GPUs的水平。

强堆算力，把Grok往死里磕！！不到地表最强决不罢休，至少也要把奥特曼那小子按着摩擦。

继续来看官方的基准测试评分：Grok-3 在数学、科学和编程这些标准化的考试中，都展现出了更厉害的水平。

从已有的测试表明，Grok-3 的“思考”模式，展示了它强大的推理能力，能解决其他模型都搞不定的复杂问题。

✅ 桌游设计：要求设计一个类似《卡坦岛》的六边形网格网页，还得用滑块动态调整环形结构。结果 Grok-3 生成了能用的 HTML/JavaScript 代码！这事儿 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 都没做成。OpenAI 的 o1-pro 模型（每月 200 美元套餐）也成功了，但 Grok-3 只花了更少的钱，效果一样好。

✅ 井字棋分析：Grok-3 能正确解出简单的井字棋棋局，还能生成有效的游戏状态。但如果出“刁钻”的棋局，它就搞出一些乱七八糟的布局了。o1-pro 模型也一样不行，看来抽象策略生成是大型语言模型（LLM）的普遍弱点。

❌ Emoji谜题：Grok-3 就算有 Rust 代码提示，还是搞不定藏在 Unicode 变体选择器里的信息。DeepSeek-R1 倒是部分解决了这个问题，说明 Grok-3 在密码学推理方面还有进步空间。

✅ 计算量估算：估算 GPT-2 模型训练需要的 FLOPs（浮点运算次数），这得靠推算 token 数量和数学计算。Grok-3 在“思考”模式下给出了准确的答案（约 1e21 FLOPs）。GPT-4o 完全失败，o1-pro 模型的结果也不稳定。

亮眼之处：勇于挑战未知难题：Grok-3 的一个突出特点是它愿意尝试解决那些尚未解决的问题。像 Claude 或 Gemini 这样的模型，一听“黎曼猜想”就直接摆烂，说这超出了它们的能力范围。但 Grok-3 却很勇，会先尝试一步一步地推理，实在不行才承认搞不定——这一点跟 DeepSeek-R1 很像。

此外，Grok-3 的 “深度搜索” (DeepSearch) 功能，结合了网页搜索和结构化的推理能力，有点像 OpenAI的Deep Research和Perplexity的Deep Research。有些同学做过一些小测试，比如：

✅ 时事热点：问它“接下来苹果发布会有啥动静？有没有啥传闻？”，它给出了详细的回答，还标明了信息来源，提到了大家都在猜的 AR 眼镜和 iOS 19 的新功能。

✅ 小众问题：问它“Bryan Johnson 用什么牙膏？”，它也能给出准确答案（羟基磷灰石牙膏），虽然有时候没标出来信息是哪来的。

❌ 流行文化短板：问它“《单身即地狱》第四季嘉宾现在都在干嘛？”，它就出岔子了，开始瞎编，比如胡说嘉宾之间的关系。问 Simon Willison 喜欢用啥语音转文字工具，它也回答得不全乎。

虽然 “深度搜索” 在信息覆盖面上跟 Perplexity 差不多，但在可靠性上还是比 OpenAI 的差一些。它有时候会编造网址，还会忘了提自己（比如在列主要的大语言模型实验室时，没把自己 xAI 算进去）。看来这功能还需要继续改进。

总的来说，这个功能还不错，能搜到信息，也能做一些推理，尤其在时事热点和小众问题上表现可以。但在流行文化方面就容易出错，可靠性方面还有提升空间，需要继续完善。Grok-3 的 “深度搜索” 功能还在“成长期”，未来可期，但现在用起来可能还会遇到一些小问题。

Grok-3 的出现，可以说是 AI 发展速度的巨大飞跃！它用更短的时间，迅速达到甚至超越了那些顶尖模型的水平，而且价格更便宜。据马斯克介绍，计划在Grok-3完全发布并成熟后把Grok-2开源。

仅开源模型的前一个版本而不是当前最新版本的策略，有助于xAI保护其价值主张。无论如何，这也是马斯克践行其开源思想的具体体现。而把Grok-3做到世界最好，也是其对OpenAI的有力回应。

马斯克自己做世界最强AI的意义显然不止是对“OpenAI有力回应”这个小调侃这么简单。还极有可能成为马斯克旗下各公司协同发展的关键纽带。

从特斯拉的自动驾驶到SpaceX的火星计划，从Optimus的机器人应用到Neuralink的脑机接口等，grok-3（亦或是未来更强的Grok模型）都有望发挥重要作用。（本文完）