Llama4发布仅36小时，用户反馈差评不断，代码能力受质疑

袁浩说 2025-04-08 13:12:43

Meta 最新推出的基础模型 Llama 4，甫一发布便遭遇了意想不到的阻力。

用户反馈差评不断，代码能力更是饱受质疑，这与发布前的预期形成了强烈反差，究竟发生了什么？

用户纷纷在评论区表达了失望之情，认为 Llama 4 的表现“不太行”，甚至将其制作成表情包进行调侃。

批评主要集中在代码能力方面，一个经典的“氛围编程”小球反弹测试中，Llama 4 竟然直接让小球穿墙而过。

各项第三方基准测试结果也显示，Llama 4 的排名大多垫底，与官方发布的 LiveCodeBench 高分以及大模型竞技场中的优异表现大相径庭，这不禁让人怀疑官方数据是否存在过拟合或刷票的嫌疑。

Llama 4 的写作能力也受到质疑。

在 EQBench 长文章写作测试中，Llama 4 表现垫底。

据榜单维护者 _sqrkl 说明，测试要求模型完成头脑风暴、修改写作计划，并进行多轮写作。

Llama 4 的问题在于，写作内容重复且公式化，这可能是由于之前的版权诉讼导致 Meta 删除了网络和书籍数据，转而使用更多合成数据进行训练造成的。

一个匿名爆料更是将 Llama 4 推上风口浪尖。

一位自称已从 Meta GenAI 部门辞职的网友爆料，自己曾要求不要在 Llama 4 的技术报告上署名。

虽然爆料真实性尚未得到证实，却引发了广泛讨论。

Meta GenAI 负责人 Ahmad Al-Dahle 的帖子显示，Llama 4 在大模型竞技场中运行的是特殊版本模型，这无疑加剧了外界的质疑。

更有 Meta 前员工指出，Llama 系列自 Llama 1 开始就存在数据泄露问题。

Meta AI 研究主管 Joelle Pineau 在 Llama 4 发布前突然离职，也为这一事件增添了更多不确定性。

Pineau 在 Meta 工作了八年，她的离开或许预示着 Llama 4 的问题由来已久。

这一切不禁让人想起年初的另一个匿名爆料。

当时有网友称，Deepseek v3 的出现使 Llama 4 显得落后，Meta 内部陷入恐慌。

彼时，这条爆料并未引起太多关注，如今看来却似乎得到了印证。

仅仅两个月后，DeepSeek-R1 横空出世，对 Llama 4 的冲击更是显而易见。

Llama 4 的发布，不仅暴露了其自身在代码和写作能力上的不足，也引发了外界对于 Meta 数据处理、模型训练以及内部管理等方面的质疑。

在竞争日益激烈的大模型领域，Llama 4 的未来将走向何方？

Meta 又将如何应对这些挑战？

这一切都值得我们持续关注和深入探讨。

0 阅读：0