AI大模型“军备竞赛”:Grok3遭实测质疑,DeepSeek推高芯片需求

数码杂货铺 2025-02-26 22:41:02

在当今科技领域,AI 大模型的发展无疑是一场激烈的 “军备竞赛”。各科技巨头纷纷投入大量资源,力求在这一前沿领域占据领先地位。近期,马斯克旗下的 xAI 公司发布的 Grok 3 模型引发了广泛关注,然而其却遭到了实测质疑,与此同时,DeepSeek 模型的崛起则推高了芯片需求,这一系列动态值得我们深入探讨。

Grok 3 一经发布,便被马斯克寄予厚望,他宣称其在数学、科学与编程领域的基准测试中超越了所有主流模型,甚至计划将其应用于 SpaceX 的火星任务计算,并预测未来三年内将带来诺贝尔奖级别的科学突破。然而,现实却给了 Grok 3 一记响亮的耳光。在媒体对 Grok 3 的 Beta 版进行测试时,面对 “9.11 与 9.9 哪个大” 这样经典的大模型刁难问题,Grok 3 竟然无法给出正确答案,这一尴尬表现迅速在网络上引发了热议,网友戏称其为 “天才不愿意回答简单问题”。不仅如此,在 xAI 发布会直播中,Grok 3 被用于分析游戏《流放之路 2》的职业与升华效果时,也给出了大量错误答案,而这些错误在直播中甚至没有被马斯克本人察觉。这一系列失误,无疑让 Grok 3 的声誉受到了严重质疑。

尽管在官方 PPT 中,Grok 3 在大模型竞技场 Chatbot Arena 中的表现看似遥遥领先,但仔细分析后却发现,其与 DeepSeek R1 和 GPT4.0 的差距其实并不大,仅为 1% 到 2%。这一数据无疑揭示了 Grok 3 在性能提升上的边际效应已经显现。为了打造 Grok 3,马斯克不惜投入巨资,使用了超过 20 万张 H100 芯片,总训练小时数更是达到了惊人的两亿小时。然而,与之相比,DeepSeek V3 却仅使用了 2000 张 H800 芯片,训练时间也仅有两个月,但其性能却与 Grok 3 相差无几。这一对比,无疑让 Grok 3 的高昂投入显得有些得不偿失。

Grok 3 的种种问题引发了业界对其测试结果真实性的质疑。OpenAI 的一名员工指出,xAI 的图表未涵盖 o3-mini-high 在 “cons@64” 条件下的得分,而这一条件允许模型对每个问题尝试 64 次,统计最常见的答案作为最终结果,意在突出模型的实际应用能力。xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题,并指出 OpenAI 过去也发布过类似的误导性基准图表。这场关于基准测试结果真实性的争论,让 Grok 3 的发展蒙上了一层阴影。

与 Grok 3 的困境形成鲜明对比的是,DeepSeek 模型的崛起正在推高芯片需求。DeepSeek 通过优化计算效率,降低 AI 大模型的训练成本,其 V3 仅需 278.8 万 GPU 小时,比 Llama 3 的 3930 万 H100 GPU 小时低 90% 以上。这一优势使得 DeepSeek 在 AI 大模型领域崭露头角,吸引了众多企业和研究机构的关注。随着 DeepSeek 的广泛应用,其对芯片的需求也在不断增加。尽管 DeepSeek 降低了训练成本,但 AI 应用的普及将推动推理计算需求增长,进而刺激对高效推理芯片的需求上升。例如,边缘计算设备、中小企业的本地化部署需求可能提升对中低端芯片的采购。这表明,AI 大模型的发展正在重塑芯片市场的需求结构,从训练端向推理端转移,同时也为国产芯片厂商提供了发展机遇。

在 AI 大模型的 “军备竞赛” 中,Grok 3 的遭遇和 DeepSeek 的崛起为我们带来了深刻的启示。一方面,技术的发展并非一帆风顺,即使是像马斯克这样的科技巨头,也可能在技术推广过程中遇到挫折。另一方面,技术的创新和优化能够带来巨大的市场机遇,DeepSeek 的成功就是一个很好的例子。未来,随着 AI 技术的不断发展,我们有理由相信,这场 “军备竞赛” 将会更加激烈,也会为我们带来更多的惊喜和突破。

0 阅读:1
数码杂货铺

数码杂货铺

爱运动的数码宅男,有机说机,无机比参。