和DeepSeek相比，我怎么觉得Grok3有点像个呆子？

试用了一下Grok 3的Beta版，发现这个模型真的有点呆，像个不是很聪明的富二代。

我问了Grok几个和英伟达最新的50系列显卡相关的问题，结果发现Grok的回答尽管有信息量，但是对于语言的组织来说，简直有点惨不忍睹。

我的第一个问题是：“RTX 5090D和RTX 5090，具体在人工智能应用方面有什么差距？” 它的回答如下，大家不需要仔细看内容，我接下来户会点出问题在哪里：

我的第二个问题是：“我需要用Stable Diffusion进行文生图操作，请问使用RTX 5090，和使用RTX5090D，有体验上的差异吗？” 它的回答截图如下：

我的第三个问题：“能否通过破解的方式，给RTX5090D升级上没有限制的固件？这在技术上是否可能？” 它的回答见如下的截图：

看到问题了吗？尽管我这三个问题都是围绕着RTX 5090与RTX 5090D，但却是三个不同的问题。第一个问题是让它告诉我有哪些差别，第二个问题是直接问使用SD进行推理的区别，第三个问题问的是关于破解固件的。

结果这三个问题，Grok都在直接回答的最后来了一段：“令人惊讶的是，尽管 RTX 5090D 的硬件与 RTX 5090 相同，但通过固件限制降低了 AI 性能，这是为了符合美国对中国的出口法规。”

在三个截图中，我用红色框线圈出来了。

它居然还“聪明”地知道不应该重复，所以这三句话尽管完全是一个意思，但是每一个里面的表达都多少有些差异。当然，也有雷同，比如那个“令人惊讶的是，尽管。。。”。

许多人可能会觉得这完全没什么，我是吹毛求疵了。我请问：你感受到的是聪明伶俐，还是死板僵硬？

打个比方吧。你连续问了一个人三个问题：这几天的天气怎么样？明天是不是会下雨？如果明天下雨我的雨衣是否足够应对？结果对方给你的回答信息很丰富，但是最后一句都是：天凉了，不要忘记加件衣服啊。

你会不会觉得对方的脑子有点问题？至少，你会觉得对方有些答非所问吧？或者比较啰嗦，或者语言能力不行。

这三个问题，是连续问的，是在一个上下文里。这说明Grok甚至都不具备良好的上下文的协调能力。

当然，非常公平地说，以上的结果是基于Grok的DeepSearch的功能，而不是Think，也就是说，以上的表现是没有开启Think的结果。但是，这可不是我故意黑Grok，而是Grok的DeepSearch和Think，居然是互斥的。两者只能选一。

这一点就比不上DeepSeek和ChatGPT了，因为它们都是可以同时打开推理和联网搜索功能的。

很显然，这是能力的问题。能力的差距在哪里呢？Grok的推理能力，仅仅限于是其模型已经训练过的数据。对于从外部获得的最新数据，其推理能力不佳。

仅仅从这一点判断，就能够基本上得出Grok还非常弱的结论。因为很显然，二者不同时提供，这不是算力的问题。Grok背后的算力是DeepSeek的几百倍。DeepSeek作为中国的一个小公司，从推出R1模型的那天就是兼具这两个功能。

因为我问的问题是关于RTX 5090的，这款显卡一月底上市之后几乎都在黄牛手里，所以我必须开启联网功能。

而且，这不是英文和中文的问题。

当然，我们也可以非常清楚的看出，Grok的中文输出是从英文翻译过来的，我甚至能够确信那三个重复的回答内容，其英文就是“Surprisingly, despite ...."这样的句式。所以，其回答表现出来的僵硬是从英文就开始僵硬，而不是中英文翻译的问题。

当然，大家肯定好奇，同样的问题，DeepSeek的表现如何。为了公平起见，我也仅仅开启了DeepSeek的联网搜索功能。具体的情况我就不给大家展示三个截图了，因为DeepSeek的三个回答完全不同，不具备Grok那种生动的僵硬感，展示效果也不好。我只给大家展示一个吧，这是第一个问题的。

大家看看DeepSeek的回答，不但没有答非所问，而且非常精准和全面。最重要的是，它能够知道你问这个问题的潜台词，在它的回答中为你覆盖你的真实需求（尽管你没有明确表达出来）。

在上面的截图中，其对这种潜台词的覆盖是：你如果是个普通玩家或者是普通AI应用，就不用太担心其差别了，差别不大。

大家都知道，这就是DeepSeek令人震撼的地方。因为其实我问这个问题的目的就是这个潜台词。

那么，如果我和你说其实以上的DeepSeek的输出，是DeepSeek V3，而不是DeepSeek-R1呢？也就是说，Grok 3的所谓“深度探索”功能，连DeepSeek V3都不如。至少在我的这个例子中是这样的。

据说Grok是用20万张H100训练出来的，而DeepSeek差不多就是2000张A100。这算力的差距，是几百倍的差距。

用几百倍的算力堆积出来的东西，在用户使用的时候不但答非所问，而且语言表达能力也不行。

总结

好了，最后我来总结一下在我的体验中，Grok 3和DeepSeek的差距吧。

功能上的差距，Grok 3的联网搜索（DeepSearch）和推理能力（Think）是互斥的。从能力上和用户体验上，远远的不如DeepSeek。即使是仅仅比较联网搜索的功能，DeepSeek V3也远远好于Grok 3。Grok 3无论是对语言的理解能力上，还是语言的表达能力上，都远不如DeepSeek。所以，才有了本文展示的如此僵硬死板的回答。

结论：用数百倍于DeepSeek的算力搞出的这个东西，和DeepSeek相比还有很大的差距。标准测试是一回事儿，但是用户体验是另外一回事儿。

给我的感觉就是，Grok像是一个读了很多书但是读的是死书，可能会考试的象牙塔里的书呆子。而DeepSeek像是一个在真实的世界中摸爬滚打，经验老练丰富的人精。

这就是为什么我说：Grok就像是一个不太聪明的富二代。

后记

本文真的不是要贬低Grok，而是我认为Grok差的还是比较远的。我再给大家上一张截图。在这个案例中，不打开Think的功能，Grok甚至连一个如此简单的请求都理解错了。我让它给我简单地翻译一句话，它还在纠结于之前的问题呢。

为了防止是中英文的差异，我又用英文要求了一遍。结果Grok仍旧是傻乎乎地纠结于之前的问题，只不过是它把回答翻译成英文了。

只有用Think的功能，Grok才能正确的理解我的请求。而DeepSeek呢，在不打开深度求索的情况下，其理解能力没有任何问题。

真的差距巨大！所以，最后，我想代替DeepSeek对Grok说的两个字，就体现在下面这张图里了。你们肯定知道是哪两个字。

如果有一天Grok在赛博空间里遇到了DeepSeek，不妨大大方方地叫一声：猴哥！