9.11和9.9谁大？竟难倒了马斯克号称“天下最聪明”的Grok3

南斗星君 2025-02-24 04:34:39

最近，马斯克与xAI团队，为“地球上最聪明的AI”进行预热宣传，并正式发布了最新版本Grok3。

在发布会上，马斯克宣称Grok 3在数学、科学与编程的基准测试中超越了所有主流模型，并计划将其应用于SpaceX的火星任务计算，甚至预测未来三年内将实现诺贝尔奖级别的突破。

但Grok 3的实际测试表现却让人大跌眼镜。发布后，一些媒体测试了最新的Beta版Grok 3，并提出了那个经典的用来刁难大模型的问题：“9.11 与 9.9 哪个大？”

遗憾的是，号称目前最聪明的 Grok 3，仍然无法正确回答这个问题，被网友戏称为“天才不愿意回答简单问题”。

“9.11和9.9哪个大”是AI领域的一个经典问题。

“9.11和9.9哪个大”这样简单的问题，曾经也把主流大模型都难倒了？！

曾经强如GPT-4o，都坚定地认为9.11更大。

谷歌Gemini Advanced付费版，同样的口径。

值得一提的是，用同样的问题询问DeepSeek时，无论是否开启深度思考（R1）模式，对方都给出了正确的答案：9.9大于9.11。

再把目光拉回马斯克的Grok3，一周前，马斯克在直播中评论DeepSeek R1时，曾信心满满地表示“xAI即将推出更优秀的AI模型”。

从现场展示的数据来看，Grok3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型，马斯克甚至宣称Grok 3未来将用于SpaceX火星任务计算，并预测“三年内将实现诺贝尔奖级别突破”。

马斯克强调，Grok-3可以减少AI幻觉，方法是通过来回检查数据并尝试实现逻辑一致性。他还透露，训练Grok-3所使用的算力远多于此前的版本，并使用了大量合成数据。

不同于DeepSeek的算法优化路径（DeepSeek-V3用2048个H800 GPU，训练2788千小时），xAI透露，Grok-3的开发的得益于用8个月时间建成的Colossus超级计算机，它由10万个英伟达的H100 GPU驱动，为训练提供了2亿个GPU小时，比Grok-2多十多倍。

作为对比，DeepSeek V3使用2000张H800芯片训练两个月，其性能却与Grok 3相差无几。

0 阅读：0