Llama4代码实测表现不佳,内部人士爆料训练数据作弊引争议

余晨说 2025-04-08 13:18:01

Llama 4,Meta的最新力作,本应是AI领域的又一里程碑,却出乎意料地在其开源首日遭遇了巨大的争议。

代码能力的全面翻车、内部员工的愤然离职以及随之而来的训练数据作弊的爆料,将Llama 4推上了风口浪尖。

这究竟是怎么回事?

Meta的未来又将走向何方?

Llama 4的代码能力在多项测试中表现不佳,引发了广泛的质疑。

许多网友在实际测试后纷纷表示失望,认为其代码能力远低于预期,甚至不如一些参数量更小的模型。

例如,有网友使用Llama 4和GPT-4o分别生成旋转多边形动画,结果Llama 4生成的动画不仅多边形不规则,小球的运动轨迹也违反物理规律,而GPT-4o的成果则相对更优。

此外,Llama 4在诗歌创作等其他方面的表现也差强人意,未能展现出与其参数量相匹配的能力。

更有甚者,有人指出Llama 4在LMarena上的测试存在过拟合现象,怀疑其有“作弊”嫌疑。

一位Meta内部员工的爆料更是将Llama 4推向了舆论的漩涡。

该员工声称,由于Llama 4经过反复训练后仍未能达到预期水平,Meta高层竟然提议在后训练阶段将多个benchmark测试集混入训练数据,以期在短期内提升模型的指标。

这位员工无法接受这种做法,最终选择辞职,并在辞职信中明确要求不要在Llama 4技术报告中挂名。

这位爆料者的身份和动机目前尚不清楚,但其言论与一些网友的测试结果以及专家的评价不谋而合。

沃顿商学院教授Ethan Mollick曾表示,经常使用AI模型的人不难分辨出哪些模型是针对基准测试进行优化的,哪些是真正的重大进步。

Llama 4的种种表现,似乎正印证了Ethan Mollick教授的观点。

Meta在Llama 4的宣传中,特别强调了“Maverick”版本是“针对对话优化的”。

有AI研究人员发现,可公开下载的Maverick版本与LM Arena上托管的版本在行为上存在显著差异。

这种“区别对待”的做法,使得开发者难以准确预测模型在特定上下文中的表现,也进一步加深了人们对Llama 4测试作弊的怀疑。

就在爆料事件不断发酵之际,Meta AI研究部副总裁Joelle Pineau的辞职申请再次引发了人们的关注。

尽管有消息称Pineau的辞职与Llama 4项目无关,但她所在的FAIR部门与负责Llama项目的GenAI部门相互独立,这一巧合仍不免令人浮想联翩。

“一亩三分地”是本次爆料的主要来源。

虽然爆料者的身份和动机有待进一步核实,但对话中提及的Meta AI研究部副总裁Joelle Pineau申请辞职一事,却与公开信息相符。

这也在一定程度上增加了爆料内容的可信度。

在代码测试方面,网友Dr_Karminski指出,总参数402B的Llama-4-Maverick在编码能力方面大致与参数量仅为32B的Qwen-QwQ相当,而总参数109B的Llama-4-Scout则与Grok-2或Ernie 4.5类似。

其他网友也纷纷表示,Llama 4的表现令人失望,甚至不如一些参数量更小的模型。

网友Deedy将Llama 4称为“一个糟糕的编程模型”,并指出Scout (109B) 和Maverick (402B)在针对编程任务的Kscores基准测试中表现不如4o、Gemini Flash、Grok 3、DeepSeek V3和Sonnet 3.5/7。

另一位网友anton则认为Llama 4的两个模型体积过大,不便于本地部署,建议Meta应该专注于开发性能优秀的小模型,而不是盲目追求成为SOTA。

Llama 4的未来将走向何方?

Meta又将如何回应这些质疑和挑战?

这一切都还有待观察。

这场风波不仅暴露了Llama 4自身存在的问题,也引发了人们对AI行业发展方向的思考。

在追求性能提升的同时,如何确保模型的可靠性和公平性,将是摆在所有AI开发者面前的重要课题。

Llama 4的翻车事件,或许会成为AI发展历程中的一个重要节点,促使人们重新审视技术进步与伦理规范之间的平衡。

那么,您认为Llama 4事件会对AI行业带来哪些影响?

0 阅读:1
余晨说

余晨说

余晨说