AI训练AI，真的会“笨”化吗？Nature封面引发大讨论

大模型训练中的“模型崩溃”：挑战和应对之道

在大模型领域，Scaling Law 依旧适用，但有个问题愈发突出：当高质量的数据（比如书籍、文章、照片、视频等）用完了，我们怎么继续训练这些大模型？

目前一个流行的解决方案是让大模型利用自己生成的数据进行再训练。然而，牛津大学和剑桥大学的研究人员对这一想法提出了警告。

什么是模型崩溃？

简单来说，模型崩溃就是模型在用自己生成的数据进行训练时，逐渐忘记了真实数据的特点，从而导致模型性能下降。这个现象在他们的研究论文《AI models collapse when trained on recursively generated data》中得到了详细讨论。举个例子，假设你有一个AI模型专门用来生成狗的图像。

如果这个模型训练时只看到了很多金毛犬的照片，它可能就会过度偏爱金毛犬。结果，新的模型也只能生成金毛犬的图像，完全忽视了其他品种。这种情况会使得模型变得单一和无趣。

模型崩溃的根源是什么？

统计误差：模型不能完美捕捉到所有真实数据的细节。随着训练的进行，模型对低概率事件（即那些不常见的情况）的记忆会变得越来越模糊。

表达能力误差：神经网络的能力有限，无法完美模拟所有的数据分布。

学习过程的局限：比如，使用随机梯度下降的过程中可能会引入一些误差，导致模型生成的内容与真实情况差距越来越大。

我们该如何应对？

尽管模型崩溃是个挑战，但还是有一些办法可以缓解：

数据混合：在每一代模型的训练中保留一定比例的原始数据，比如 10% 或 20%。这样可以确保模型接触到真实世界的样本，不至于完全依赖于生成的数据。

数据多样化：除了使用模型生成的数据，还应加入人类创造的数据或其他类型的模型生成的数据。这样可以增加训练数据的多样性，帮助模型更好地理解现实世界的复杂性。

改进学习算法：研究更鲁棒的训练算法，如对抗训练、知识蒸馏或终身学习，这些算法能帮助模型更好地处理数据中的噪声和偏差，提高模型的泛化能力。

未来展望

虽然这些问题对当前的生成式AI技术和商业应用提出了挑战，但从长远来看，它们也为人类内容创作者带来了新的机遇。

研究人员指出，在未来的AI工具和生成内容泛滥的世界里，人类创造的内容将比现在更有价值，因为它将成为AI训练数据中的珍贵补充。

世良情感网

AI训练AI，真的会“笨”化吗？Nature封面引发大讨论

数码头号测评家