强堆算力,把Grok往死里磕!!不到地表最强决不罢休,至少也要把奥特曼那小子按着摩擦。Gemini 2.0推理模型才称王10来天,马斯克带着他的Grok-3,号称当今地球上最聪明的AI与大家见面了。
- 文章信息 -
本文由e-works祖哥综合报道。
还记得10天前左右,笔者才发布的「Google DeepMind宣布:全球最强AI模型正式发布!Gemini用户可免费使用」这篇文章吧,结尾处我写下了这么一段话:

仅仅才过10来天,马斯克带着他的Grok-3,号称当今地球上最聪明的AI与大家见面了。

依然是根据lmarena.ai里面的评测平台——Chatbot Arena的最新评分排行榜(数据到2月16日),早期版本的Grok-3(代号“chocolate”)一骑绝尘,超越了Google的Gemini-2.0-Flash-Thinking-Experimental,现在在竞技场中排名第一。且是第一个也是目前唯一一个突破1400分的模型;在所有类别中排名第一,这是一个越来越难以达成的里程碑!

与此同时,开源大模型Deepseek-R1的分数排位又被向下挤了一位,但仍位于Top5,含金量依然非常高。
目前,就笔者了解到的信息,需要X应用Premium+的订阅用户才能尝鲜Grok-3。这一点,相较于上次Google的Gemini可免费使用最先进模型的操作手法来看,Grok-3就显得不是那么“友好”了。
不过,笔者依然有方法,可以让大家抢先体验Grok-3尝鲜版。那就是到Chatbot Arena中点击Direct Chat选项卡,选中early-grok-3即可免费体验。

由于这是一个开放的大语言模型竞技场评测平台,必然会提供给用户试用入口,才能根据测试结果给出相应的评价来形成排行榜。依然丢给它这个老生常谈的简单问题,让它用推理模式回答——“Deepseek这个单词中有几个e?”的问题。
如果大家没记错,上次Grok-2回答的结果是两个“e”,包括我后来多次测试依然回答的是两个“e”。不过early-grok-3用推理模式就轻松且快捷的给出了这个问题的答案:

强大的智能需要强大的计算能力(Big intelligence requires big compute)。马斯克和他的xAI依然坚定Scaling Law不动摇。左边这位兄弟说到:xAI如果想打造地表最强AI,在去年4月那个节骨眼上,唯一路径就是建立大型数据中心。

据发布活动介绍:时间紧,任务重,竞争激烈。他们并没有太多时间,用122天也就是4个月的时间打造了一个10万GPUs集群。Grok-3使用了100,000个Nvidia H100 GPU,在位于田纳西州孟菲斯的Colossus超级集群上进行训练。事实上,他们并没有停止脚步,而是准备再用92天约3个月的时间,把数据中心容量翻倍,最终达到20万的GPUs的水平。

强堆算力,把Grok往死里磕!!不到地表最强决不罢休,至少也要把奥特曼那小子按着摩擦。
继续来看官方的基准测试评分:Grok-3 在数学、科学和编程这些标准化的考试中,都展现出了更厉害的水平。

从已有的测试表明,Grok-3 的“思考”模式,展示了它强大的推理能力,能解决其他模型都搞不定的复杂问题。
✅ 桌游设计:要求设计一个类似《卡坦岛》的六边形网格网页,还得用滑块动态调整环形结构。结果 Grok-3 生成了能用的 HTML/JavaScript 代码!这事儿 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 都没做成。OpenAI 的 o1-pro 模型(每月 200 美元套餐)也成功了,但 Grok-3 只花了更少的钱,效果一样好。
✅ 井字棋分析:Grok-3 能正确解出简单的井字棋棋局,还能生成有效的游戏状态。但如果出“刁钻”的棋局,它就搞出一些乱七八糟的布局了。o1-pro 模型也一样不行,看来抽象策略生成是大型语言模型(LLM)的普遍弱点。
❌ Emoji谜题:Grok-3 就算有 Rust 代码提示,还是搞不定藏在 Unicode 变体选择器里的信息。DeepSeek-R1 倒是部分解决了这个问题,说明 Grok-3 在密码学推理方面还有进步空间。
✅ 计算量估算:估算 GPT-2 模型训练需要的 FLOPs(浮点运算次数),这得靠推算 token 数量和数学计算。Grok-3 在“思考”模式下给出了准确的答案(约 1e21 FLOPs)。GPT-4o 完全失败,o1-pro 模型的结果也不稳定。
亮眼之处:勇于挑战未知难题:Grok-3 的一个突出特点是它愿意尝试解决那些尚未解决的问题。像 Claude 或 Gemini 这样的模型,一听“黎曼猜想”就直接摆烂,说这超出了它们的能力范围。但 Grok-3 却很勇,会先尝试一步一步地推理,实在不行才承认搞不定——这一点跟 DeepSeek-R1 很像。

此外,Grok-3 的 “深度搜索” (DeepSearch) 功能,结合了网页搜索和结构化的推理能力,有点像 OpenAI的Deep Research和Perplexity的Deep Research。有些同学做过一些小测试,比如:
✅ 时事热点:问它“接下来苹果发布会有啥动静?有没有啥传闻?”,它给出了详细的回答,还标明了信息来源,提到了大家都在猜的 AR 眼镜和 iOS 19 的新功能。
✅ 小众问题:问它“Bryan Johnson 用什么牙膏?”,它也能给出准确答案(羟基磷灰石牙膏),虽然有时候没标出来信息是哪来的。
❌ 流行文化短板: 问它“《单身即地狱》第四季嘉宾现在都在干嘛?”,它就出岔子了,开始瞎编,比如胡说嘉宾之间的关系。 问 Simon Willison 喜欢用啥语音转文字工具,它也回答得不全乎。
虽然 “深度搜索” 在 信息覆盖面 上跟 Perplexity 差不多,但在 可靠性 上还是比 OpenAI 的差一些。 它有时候会 编造网址,还会 忘了提自己 (比如在列主要的大语言模型实验室时,没把自己 xAI 算进去)。 看来这功能还需要继续改进。
总的来说,这个功能还不错,能搜到信息,也能做一些推理,尤其在时事热点和小众问题上表现可以。但在流行文化方面就容易出错,可靠性方面还有提升空间,需要继续完善。Grok-3 的 “深度搜索” 功能还在“成长期”,未来可期,但现在用起来可能还会遇到一些小问题。

Grok-3 的出现,可以说是 AI 发展速度的巨大飞跃!它用更短的时间,迅速达到甚至超越了那些顶尖模型的水平,而且价格更便宜。据马斯克介绍,计划在Grok-3完全发布并成熟后把Grok-2开源。
仅开源模型的前一个版本而不是当前最新版本的策略,有助于xAI保护其价值主张。无论如何,这也是马斯克践行其开源思想的具体体现。而把Grok-3做到世界最好,也是其对OpenAI的有力回应。
马斯克自己做世界最强AI的意义显然不止是对“OpenAI有力回应”这个小调侃这么简单。还极有可能成为马斯克旗下各公司协同发展的关键纽带。
从特斯拉的自动驾驶到SpaceX的火星计划,从Optimus的机器人应用到Neuralink的脑机接口等,grok-3(亦或是未来更强的Grok模型)都有望发挥重要作用。(本文完)