Llama4发布仅36小时,用户反馈差评不断,代码能力受质疑

袁浩说 2025-04-08 13:12:43

Meta 最新推出的基础模型 Llama 4,甫一发布便遭遇了意想不到的阻力。

用户反馈差评不断,代码能力更是饱受质疑,这与发布前的预期形成了强烈反差,究竟发生了什么?

用户纷纷在评论区表达了失望之情,认为 Llama 4 的表现“不太行”,甚至将其制作成表情包进行调侃。

批评主要集中在代码能力方面,一个经典的“氛围编程”小球反弹测试中,Llama 4 竟然直接让小球穿墙而过。

各项第三方基准测试结果也显示,Llama 4 的排名大多垫底,与官方发布的 LiveCodeBench 高分以及大模型竞技场中的优异表现大相径庭,这不禁让人怀疑官方数据是否存在过拟合或刷票的嫌疑。

Llama 4 的写作能力也受到质疑。

在 EQBench 长文章写作测试中,Llama 4 表现垫底。

据榜单维护者 _sqrkl 说明,测试要求模型完成头脑风暴、修改写作计划,并进行多轮写作。

Llama 4 的问题在于,写作内容重复且公式化,这可能是由于之前的版权诉讼导致 Meta 删除了网络和书籍数据,转而使用更多合成数据进行训练造成的。

一个匿名爆料更是将 Llama 4 推上风口浪尖。

一位自称已从 Meta GenAI 部门辞职的网友爆料,自己曾要求不要在 Llama 4 的技术报告上署名。

虽然爆料真实性尚未得到证实,却引发了广泛讨论。

Meta GenAI 负责人 Ahmad Al-Dahle 的帖子显示,Llama 4 在大模型竞技场中运行的是特殊版本模型,这无疑加剧了外界的质疑。

更有 Meta 前员工指出,Llama 系列自 Llama 1 开始就存在数据泄露问题。

Meta AI 研究主管 Joelle Pineau 在 Llama 4 发布前突然离职,也为这一事件增添了更多不确定性。

Pineau 在 Meta 工作了八年,她的离开或许预示着 Llama 4 的问题由来已久。

这一切不禁让人想起年初的另一个匿名爆料。

当时有网友称,Deepseek v3 的出现使 Llama 4 显得落后,Meta 内部陷入恐慌。

彼时,这条爆料并未引起太多关注,如今看来却似乎得到了印证。

仅仅两个月后,DeepSeek-R1 横空出世,对 Llama 4 的冲击更是显而易见。

Llama 4 的发布,不仅暴露了其自身在代码和写作能力上的不足,也引发了外界对于 Meta 数据处理、模型训练以及内部管理等方面的质疑。

在竞争日益激烈的大模型领域,Llama 4 的未来将走向何方?

Meta 又将如何应对这些挑战?

这一切都值得我们持续关注和深入探讨。

0 阅读:0
袁浩说

袁浩说

袁浩说