Llama4代码实测表现不佳，内部人士爆料训练数据作弊引争议

Llama 4，Meta的最新力作，本应是AI领域的又一里程碑，却出乎意料地在其开源首日遭遇了巨大的争议。

代码能力的全面翻车、内部员工的愤然离职以及随之而来的训练数据作弊的爆料，将Llama 4推上了风口浪尖。

这究竟是怎么回事？

Meta的未来又将走向何方？

Llama 4的代码能力在多项测试中表现不佳，引发了广泛的质疑。

许多网友在实际测试后纷纷表示失望，认为其代码能力远低于预期，甚至不如一些参数量更小的模型。

例如，有网友使用Llama 4和GPT-4o分别生成旋转多边形动画，结果Llama 4生成的动画不仅多边形不规则，小球的运动轨迹也违反物理规律，而GPT-4o的成果则相对更优。

此外，Llama 4在诗歌创作等其他方面的表现也差强人意，未能展现出与其参数量相匹配的能力。

更有甚者，有人指出Llama 4在LMarena上的测试存在过拟合现象，怀疑其有“作弊”嫌疑。

一位Meta内部员工的爆料更是将Llama 4推向了舆论的漩涡。

该员工声称，由于Llama 4经过反复训练后仍未能达到预期水平，Meta高层竟然提议在后训练阶段将多个benchmark测试集混入训练数据，以期在短期内提升模型的指标。

这位员工无法接受这种做法，最终选择辞职，并在辞职信中明确要求不要在Llama 4技术报告中挂名。

这位爆料者的身份和动机目前尚不清楚，但其言论与一些网友的测试结果以及专家的评价不谋而合。

沃顿商学院教授Ethan Mollick曾表示，经常使用AI模型的人不难分辨出哪些模型是针对基准测试进行优化的，哪些是真正的重大进步。

Llama 4的种种表现，似乎正印证了Ethan Mollick教授的观点。

Meta在Llama 4的宣传中，特别强调了“Maverick”版本是“针对对话优化的”。

有AI研究人员发现，可公开下载的Maverick版本与LM Arena上托管的版本在行为上存在显著差异。

这种“区别对待”的做法，使得开发者难以准确预测模型在特定上下文中的表现，也进一步加深了人们对Llama 4测试作弊的怀疑。

就在爆料事件不断发酵之际，Meta AI研究部副总裁Joelle Pineau的辞职申请再次引发了人们的关注。

尽管有消息称Pineau的辞职与Llama 4项目无关，但她所在的FAIR部门与负责Llama项目的GenAI部门相互独立，这一巧合仍不免令人浮想联翩。

“一亩三分地”是本次爆料的主要来源。

虽然爆料者的身份和动机有待进一步核实，但对话中提及的Meta AI研究部副总裁Joelle Pineau申请辞职一事，却与公开信息相符。

这也在一定程度上增加了爆料内容的可信度。

在代码测试方面，网友Dr_Karminski指出，总参数402B的Llama-4-Maverick在编码能力方面大致与参数量仅为32B的Qwen-QwQ相当，而总参数109B的Llama-4-Scout则与Grok-2或Ernie 4.5类似。

其他网友也纷纷表示，Llama 4的表现令人失望，甚至不如一些参数量更小的模型。

网友Deedy将Llama 4称为“一个糟糕的编程模型”，并指出Scout (109B) 和Maverick (402B)在针对编程任务的Kscores基准测试中表现不如4o、Gemini Flash、Grok 3、DeepSeek V3和Sonnet 3.5/7。

另一位网友anton则认为Llama 4的两个模型体积过大，不便于本地部署，建议Meta应该专注于开发性能优秀的小模型，而不是盲目追求成为SOTA。

Llama 4的未来将走向何方？

Meta又将如何回应这些质疑和挑战？

这一切都还有待观察。

这场风波不仅暴露了Llama 4自身存在的问题，也引发了人们对AI行业发展方向的思考。

在追求性能提升的同时，如何确保模型的可靠性和公平性，将是摆在所有AI开发者面前的重要课题。

Llama 4的翻车事件，或许会成为AI发展历程中的一个重要节点，促使人们重新审视技术进步与伦理规范之间的平衡。

那么，您认为Llama 4事件会对AI行业带来哪些影响？