如果没有新数据，自噬的人工智能可能面临数字“疯牛病”的风险

知新了了 2024-08-07 17:08:50

只有通过吞噬大量的图像、文本或其他形式的人类表达，生成性人工智能模型才能产生自己的边缘怪异解释。

当灵感仓库空空如也时呢？就像少数被放逐的水手一样，人工智能只能依靠自己的力量，寻找经过深度处理的数字营养来源；这个选择可能会带来一些相当令人担忧的后果。

美国莱斯大学和斯坦福大学的研究人员进行的一项新研究提供了证据，表明当人工智能引擎接受人工合成的机器输入（而不是真人制作的文本和图像）训练时，其输出的质量就会开始受到影响。

研究人员将这种效应称为模型自噬紊乱（MAD）。这种人工智能有效地消耗了自己，这意味着它与疯牛病有相似之处 —— 疯牛病是一种神经系统疾病，它们被喂食其他牛的感染残骸。

研究表明，如果没有新鲜的、真实的数据，人工智能产生的内容的质量水平或多样性水平都会下降，或者两者兼而有之。这是对这些模型带来的人工智能未来的警告。

莱斯大学的计算机工程师理查德·巴拉尼克说：“我们的理论和实证分析使我们能够推断出，当生成模型变得无处不在时可能发生的事情，并在自我消费循环中训练未来的模型。”

“有些后果很明显：没有足够的新鲜真实数据，未来的生成模型注定会疯狂。”

巴拉尼克和他的同事们使用了一个视觉生成人工智能模型，在三种不同类型的数据上进行训练：完全合成的、与固定的真实训练数据混合的合成数据，以及与不断刷新的真实训练数字混合的合成数据。

当循环在前两个场景中重复时，模型的输出变得越来越扭曲。这种表现的一种方式是通过计算机生成的人脸上更明显的人工制品，以网格状疤痕的形式出现。

更重要的是，当没有新的人工生成的训练数据时，这些面孔看起来越来越像。在使用手写数字的测试中，这些数字逐渐变得难以辨认。

如果以固定的方式使用真实数据而不添加新数据，则输出的质量仍然会降低，只是需要更长的时间来分解。看来新鲜度是至关重要的。

巴拉尼克说：“我们的团队在这种反馈循环上进行了广泛的研究，坏消息是，即使经过几代这样的训练，新的模型也会受到不可挽回的破坏。”

虽然这项研究的重点是图像生成，但该团队表示，设计用于生成文本的大型语言模型（LLM）也会以同样的方式失败。这一点在其他研究中也得到了证实。

专家们已经警告说，生成式人工智能工具正在耗尽用于训练自己的数据，而这项最新研究是对人工智能炒作的又一次检验。这当然是一项很有前途的技术，但它也有局限性。

巴拉尼克说：“一个世界末日的场景是，如果几代模型都不受控制，MAD可能会毒害整个互联网的数据质量和多样性。”

“如果没有这一点，即使在短期内，人工智能自噬也将不可避免地产生迄今为止看不到的意外后果。”

这项研究已经在国际学习表征会议（ICLR）上发表。

如果朋友们喜欢，敬请关注“知新了了”！

1 阅读：19