2月18日,马斯克旗下xAI公司高调发布的Grok 3号称“地球上最聪明的AI”,但却暴露出诸多问题,引发广泛关注。
技术层面
常识推理失误:在“9.11与9.9哪个大”这样简单的常识问题上答错,凸显其在常识推理方面存在严重不足,表明单纯提升计算力或许无法解决AI常识判断的根本问题。
算力与性能失衡:训练动用20万张GPU集群,算力消耗是DeepSeek V3的263倍,在AIME 2025等测试中优势不显著,性能提升仅1%-2%,存在边际效益递减问题。
存在逻辑跳跃:在数学推理任务中,比如生成代码时会忽略边界条件,其引入的“思维链”机制与实时数据结合的效果未达预期。
服务器崩溃:发布会时,Grok官网因流量过载瘫痪,数百万用户遭遇“404黑洞”,暴露出基础设施难以承载流量的问题,显示出算力霸权与基础设施的失衡。
应用能力存疑:DeepSearch功能在演示中仅展示预设场景,未涉及复杂逻辑冲突或实时信息验证,实际应用能力有待检验。
用户体验和伦理层面
数据真实性存忧:通过X平台获取实时数据,但X平台谣言占比超15%,Grok 3可能输出包含虚假信息的内容,导致真实与虚假的边界崩塌。
权力操控风险:马斯克同时掌控X平台和Grok,可能会操控数据输入和AI输出,使AI答案带有预设的政治立场等偏见。
用户认知受挫:发布会的种种问题,使得67%的企业CIO将“系统稳定性”列为AI采购首要指标,用户对Grok 3的认知和信任受到影响。
DEEKSEEP对比更胜一筹