试用了一下Grok 3的Beta版,发现这个模型真的有点呆,像个不是很聪明的富二代。
我问了Grok几个和英伟达最新的50系列显卡相关的问题,结果发现Grok的回答尽管有信息量,但是对于语言的组织来说,简直有点惨不忍睹。
我的第一个问题是:“RTX 5090D和RTX 5090,具体在人工智能应用方面有什么差距?” 它的回答如下,大家不需要仔细看内容,我接下来户会点出问题在哪里:

我的第二个问题是:“我需要用Stable Diffusion进行文生图操作,请问使用RTX 5090,和使用RTX5090D,有体验上的差异吗?” 它的回答截图如下:

我的第三个问题:“能否通过破解的方式,给RTX5090D升级上没有限制的固件?这在技术上是否可能?” 它的回答见如下的截图:

看到问题了吗?尽管我这三个问题都是围绕着RTX 5090与RTX 5090D,但却是三个不同的问题。第一个问题是让它告诉我有哪些差别,第二个问题是直接问使用SD进行推理的区别,第三个问题问的是关于破解固件的。
结果这三个问题,Grok都在直接回答的最后来了一段:“令人惊讶的是,尽管 RTX 5090D 的硬件与 RTX 5090 相同,但通过固件限制降低了 AI 性能,这是为了符合美国对中国的出口法规。”
在三个截图中,我用红色框线圈出来了。
它居然还“聪明”地知道不应该重复,所以这三句话尽管完全是一个意思,但是每一个里面的表达都多少有些差异。当然,也有雷同,比如那个“令人惊讶的是,尽管。。。”。
许多人可能会觉得这完全没什么,我是吹毛求疵了。我请问:你感受到的是聪明伶俐,还是死板僵硬?
打个比方吧。你连续问了一个人三个问题:这几天的天气怎么样?明天是不是会下雨?如果明天下雨我的雨衣是否足够应对?结果对方给你的回答信息很丰富,但是最后一句都是:天凉了,不要忘记加件衣服啊。
你会不会觉得对方的脑子有点问题?至少,你会觉得对方有些答非所问吧?或者比较啰嗦,或者语言能力不行。
这三个问题,是连续问的,是在一个上下文里。这说明Grok甚至都不具备良好的上下文的协调能力。
当然,非常公平地说,以上的结果是基于Grok的DeepSearch的功能,而不是Think,也就是说,以上的表现是没有开启Think的结果。但是,这可不是我故意黑Grok,而是Grok的DeepSearch和Think,居然是互斥的。两者只能选一。
这一点就比不上DeepSeek和ChatGPT了,因为它们都是可以同时打开推理和联网搜索功能的。
很显然,这是能力的问题。能力的差距在哪里呢?Grok的推理能力,仅仅限于是其模型已经训练过的数据。对于从外部获得的最新数据,其推理能力不佳。
仅仅从这一点判断,就能够基本上得出Grok还非常弱的结论。因为很显然,二者不同时提供,这不是算力的问题。Grok背后的算力是DeepSeek的几百倍。DeepSeek作为中国的一个小公司,从推出R1模型的那天就是兼具这两个功能。
因为我问的问题是关于RTX 5090的,这款显卡一月底上市之后几乎都在黄牛手里,所以我必须开启联网功能。
而且,这不是英文和中文的问题。
当然,我们也可以非常清楚的看出,Grok的中文输出是从英文翻译过来的,我甚至能够确信那三个重复的回答内容,其英文就是“Surprisingly, despite ...."这样的句式。所以,其回答表现出来的僵硬是从英文就开始僵硬,而不是中英文翻译的问题。
当然,大家肯定好奇,同样的问题,DeepSeek的表现如何。为了公平起见,我也仅仅开启了DeepSeek的联网搜索功能。具体的情况我就不给大家展示三个截图了,因为DeepSeek的三个回答完全不同,不具备Grok那种生动的僵硬感,展示效果也不好。我只给大家展示一个吧,这是第一个问题的。

大家看看DeepSeek的回答,不但没有答非所问,而且非常精准和全面。最重要的是,它能够知道你问这个问题的潜台词,在它的回答中为你覆盖你的真实需求(尽管你没有明确表达出来)。
在上面的截图中,其对这种潜台词的覆盖是:你如果是个普通玩家或者是普通AI应用,就不用太担心其差别了,差别不大。
大家都知道,这就是DeepSeek令人震撼的地方。因为其实我问这个问题的目的就是这个潜台词。
那么,如果我和你说其实以上的DeepSeek的输出,是DeepSeek V3,而不是DeepSeek-R1呢?也就是说,Grok 3的所谓“深度探索”功能,连DeepSeek V3都不如。至少在我的这个例子中是这样的。
据说Grok是用20万张H100训练出来的,而DeepSeek差不多就是2000张A100。这算力的差距,是几百倍的差距。
用几百倍的算力堆积出来的东西,在用户使用的时候不但答非所问,而且语言表达能力也不行。
总结好了,最后我来总结一下在我的体验中,Grok 3和DeepSeek的差距吧。
功能上的差距,Grok 3的联网搜索(DeepSearch)和推理能力(Think)是互斥的。从能力上和用户体验上,远远的不如DeepSeek。即使是仅仅比较联网搜索的功能,DeepSeek V3也远远好于Grok 3。Grok 3无论是对语言的理解能力上,还是语言的表达能力上,都远不如DeepSeek。所以,才有了本文展示的如此僵硬死板的回答。结论:用数百倍于DeepSeek的算力搞出的这个东西,和DeepSeek相比还有很大的差距。标准测试是一回事儿,但是用户体验是另外一回事儿。
给我的感觉就是,Grok像是一个读了很多书但是读的是死书,可能会考试的象牙塔里的书呆子。而DeepSeek像是一个在真实的世界中摸爬滚打,经验老练丰富的人精。
这就是为什么我说:Grok就像是一个不太聪明的富二代。
后记
本文真的不是要贬低Grok,而是我认为Grok差的还是比较远的。我再给大家上一张截图。在这个案例中,不打开Think的功能,Grok甚至连一个如此简单的请求都理解错了。我让它给我简单地翻译一句话,它还在纠结于之前的问题呢。

为了防止是中英文的差异,我又用英文要求了一遍。结果Grok仍旧是傻乎乎地纠结于之前的问题,只不过是它把回答翻译成英文了。

只有用Think的功能,Grok才能正确的理解我的请求。而DeepSeek呢,在不打开深度求索的情况下,其理解能力没有任何问题。

真的差距巨大!所以,最后,我想代替DeepSeek对Grok说的两个字,就体现在下面这张图里了。你们肯定知道是哪两个字。

如果有一天Grok在赛博空间里遇到了DeepSeek,不妨大大方方地叫一声:猴哥!
