人工智能(AI)预言家和新闻传播者正在预测,生成式人工智能(Generative AI)炒作的结束,并谈论即将发生的灾难性“模型崩溃”。
但这些预测有多现实呢?什么是模型崩溃?
“模型崩溃”在2023年被讨论过,但最近才流行起来,它指的是一种假设情景,即未来的人工智能系统由于互联网上人工智能生成的数据的增加,而逐渐变笨。
对数据的需求
现代人工智能系统是使用机器学习构建的。程序员建立了底层的数学结构,但真正的“智能”来自于训练系统模仿数据中的模式。
但不是所有的数据。当前的生成式人工智能系统需要高质量的数据,而且是大量的、高质量的数据。
为了获取这些数据,OpenAI、谷歌(Google)、Meta和英伟达(Nvidia)等大型科技公司不断搜索互联网,挖掘出数TB的内容,为机器提供数据。但自2022年广泛可用和有用的生成式人工智能系统出现以来,人们越来越多地上传和分享部分或全部由人工智能制作的内容。
2023年,研究人员开始想知道,他们是否可以只依靠人工智能创建的数据进行训练,而不是人工生成的数据。
实现这一目标有巨大的动机。除了在互联网上激增之外,人工智能制作的内容比人工数据要便宜得多。同时,在道德和法律上,收集大量数据也没有问题。
然而,研究人员发现,如果没有高质量的人类数据,用人工智能制造的数据训练的人工智能系统会变得越来越笨,因为每个模型都会从前一个模型中学习。这就像是近亲繁殖问题的数字版本。
这种“递归训练”似乎导致了模型行为的质量和多样性的降低。这里的品质大致是指乐于助人、无害和诚实的结合。多样性是指反应的多样性,人们的文化和社会观点在人工智能输出中得到体现。
简而言之:过多地使用人工智能系统,我们可能会污染我们首先需要使它们有用的数据源。
避免崩溃
大型科技公司就不能过滤掉人工智能生成的内容吗?这不现实。科技公司已经花费了大量的时间和金钱来清理和过滤他们收集的数据,一位业内人士最近透露,他们有时会丢弃多达90%的最初收集的用于训练模型的数据。
随着移除人工智能生成内容的需求增加,这些努力可能会变得更加艰巨。但更重要的是,从长远来看,区分人工智能内容会变得越来越难。这将使过滤和删除合成数据成为一场(经济)收益递减的游戏。
最终,到目前为止的研究表明,我们不能完全放弃人类数据。毕竟,这是AI中的“我”的来源。
我们正在走向一场灾难吗?
有迹象表明,开发人员已经不得不更加努力地获取高质量的数据。例如,GPT-4版本附带的文件记录了参与该项目数据相关部分的空前数量的工作人员。
我们可能也正在耗尽新的人类数据。一些人估计,人类生成的文本数据池可能会在2026年耗尽。
这可能就是OpenAI和其他公司竞相与Shutterstock、美联社(Associated Press)和新闻集团(NewsCorp)等行业巨头建立独家合作关系的原因。他们拥有大量专有的人类数据,这些数据在公共互联网上是不容易获得的。
然而,灾难性模型崩溃的前景可能被夸大了。到目前为止,大多数研究都着眼于人工数据取代人类数据的情况。在实践中,人类和人工智能的数据可能会并行积累,这降低了崩溃的可能性。
未来最有可能出现的情况是,一个由不同的生成式人工智能平台组成的生态系统,被用来创建和发布内容,而不是一个单一的模型。这也增加了抗崩溃的稳健性。
监管机构有很好的理由通过限制人工智能领域的垄断来促进健康竞争,并为公益技术开发提供资金。
真正的担忧
过多人工智能制作的内容也会带来更微妙的风险。
大量合成内容可能不会对人工智能的发展进程构成生存威胁,但它确实会威胁到(人类)互联网的数字公共利益。
例如,研究人员发现,在ChatGPT发布一年后,编码网站StackOverflow的活跃度下降了16%。这表明,人工智能的帮助可能已经减少了一些在线社区中人与人之间的互动。
由人工智能驱动的内容农场的超级生产,也使得找到不是充斥着广告的点击诱饵的内容变得更加困难。
可靠地区分人工生成和人工智能生成的内容变得越来越不可能。解决这一问题的一种方法是对人工智能生成的内容进行水印或标记,正如当前许多人强调的那样,最近澳大利亚政府的临时立法也反映了这一点。
还有另一个风险。随着人工智能生成的内容变得系统性同质化,我们有可能失去社会文化多样性,一些群体甚至可能经历文化抹除。我们迫切需要对人工智能系统带来的社会和文化挑战进行跨学科研究。
人类互动和人类数据很重要,我们应该保护它们。为了我们自己,也许,也是为了未来模型崩溃的可能风险。
如果朋友们喜欢,敬请关注“知新了了”!