9.11和9.9谁大?竟难倒了马斯克号称“天下最聪明”的Grok3

南斗星君 2025-02-24 04:34:39

最近,马斯克与xAI团队,为“地球上最聪明的AI”进行预热宣传,并正式发布了最新版本Grok3。

在发布会上,马斯克宣称Grok 3在数学、科学与编程的基准测试中超越了所有主流模型,并计划将其应用于SpaceX的火星任务计算,甚至预测未来三年内将实现诺贝尔奖级别的突破。

但Grok 3的实际测试表现却让人大跌眼镜。发布后,一些媒体测试了最新的Beta版Grok 3,并提出了那个经典的用来刁难大模型的问题:“9.11 与 9.9 哪个大?”

遗憾的是,号称目前最聪明的 Grok 3,仍然无法正确回答这个问题,被网友戏称为“天才不愿意回答简单问题”。

“9.11和9.9哪个大”是AI领域的一个经典问题。

“9.11和9.9哪个大”这样简单的问题,曾经也把主流大模型都难倒了?!

曾经强如GPT-4o,都坚定地认为9.11更大。

谷歌Gemini Advanced付费版,同样的口径。

值得一提的是,用同样的问题询问DeepSeek时,无论是否开启深度思考(R1)模式,对方都给出了正确的答案:9.9大于9.11。

再把目光拉回马斯克的Grok3,一周前,马斯克在直播中评论DeepSeek R1时,曾信心满满地表示“xAI即将推出更优秀的AI模型”。

从现场展示的数据来看,Grok3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称Grok 3未来将用于SpaceX火星任务计算,并预测“三年内将实现诺贝尔奖级别突破”。

马斯克强调,Grok-3可以减少AI幻觉,方法是通过来回检查数据并尝试实现逻辑一致性。他还透露,训练Grok-3所使用的算力远多于此前的版本,并使用了大量合成数据。

不同于DeepSeek的算法优化路径(DeepSeek-V3用2048个H800 GPU,训练2788千小时),xAI透露,Grok-3的开发的得益于用8个月时间建成的Colossus超级计算机,它由10万个英伟达的H100 GPU驱动,为训练提供了2亿个GPU小时,比Grok-2多十多倍。

作为对比,DeepSeek V3使用2000张H800芯片训练两个月,其性能却与Grok 3相差无几。

0 阅读:0
南斗星君

南斗星君

感谢大家的关注