到2026年可能耗尽训练AI的数据

随着人工智能达到其普及的顶峰，研究人员警告说，该行业可能正在耗尽训练数据——这是运行强大人工智能系统的燃料。这可能会减缓人工智能模型的增长，尤其是大型语言模型，甚至可能改变人工智能革命的轨迹。但是，考虑到网络上有多少数据，为什么潜在的数据缺乏是一个问题？有没有办法解决风险？在线数据存量的增长速度比用于训练人工智能的数据集要慢得多。为什么高质量数据对 AI 很重要我们需要大量数据来训练强大、准确和高质量的 AI 算法。例如，为 ChatGPT 提供支持的算法最初是在 570 GB 的文本数据（约合 300 亿个单词）上训练的。同样，Stable Diffusion 算法（在许多 AI 图像生成应用程序背后）是在由 5 亿个图像文本对组成的 LAION-5B 数据集上训练的。如果算法在数据量不足的情况下进行训练，它将产生不准确或低质量的输出。训练数据的质量也很重要。社交媒体帖子或模糊照片等低质量数据很容易获得，但不足以训练高性能的 AI 模型。从社交媒体平台获取的文本可能带有偏见或偏见，或者可能包含虚假信息或非法内容，这些内容可能会被模型复制。例如，当Microsoft试图使用Twitter内容训练其AI机器人时，它学会了产生种族主义和厌恶女性的输出。这就是为什么 AI 开发人员会寻找高质量的内容，例如书籍、在线文章、科学论文、维基百科和某些经过过滤的 Web 内容中的文本。Google Assistant接受了来自自助出版网站Smashwords的11,000部浪漫小说的训练，以使其更具对话性。我们有足够的数据吗？人工智能行业一直在更大的数据集上训练人工智能系统，这就是为什么我们现在拥有 ChatGPT 或 DALL-E 3 等高性能模型的原因。与此同时，研究表明，在线数据存量的增长速度比用于训练人工智能的数据集要慢得多。在去年发表的一篇论文中，一组研究人员预测，如果目前的人工智能训练趋势继续下去，我们将在2026年之前耗尽高质量的文本数据。他们还估计，低质量的语言数据将在2030年至2050年之间的某个时候耗尽，而低质量的图像数据将在2030年至2060年之间耗尽。根据会计和咨询集团普华永道的数据，到 15 年，人工智能可能为世界经济贡献高达 7.2030 万亿美元。但是，可用数据的耗尽可能会减慢其发展速度。我们应该担心吗？虽然以上几点可能会让一些 AI 粉丝感到震惊，但情况可能并不像看起来那么糟糕。关于人工智能模型未来将如何发展，以及解决数据短缺风险的几种方法，还有很多未知数。人工智能开发人员有机会改进算法，以便更有效地使用他们已经拥有的数据。在未来几年，他们很可能能够使用更少的数据和更少的计算能力来训练高性能的人工智能系统。这也将有助于减少人工智能的碳足迹。另一种选择是使用 AI 创建合成数据来训练系统。换句话说，开发人员可以简单地生成他们需要的数据，并根据他们的特定 AI 模型进行策划。一些项目已经在使用合成内容，这些内容通常来自数据生成服务，例如 Mostly AI。这在未来将变得更加普遍。开发人员也在搜索免费在线空间之外的内容，例如大型出版商和离线存储库持有的内容。想想在互联网之前发布的数百万篇文本。它们以数字方式提供，可以为人工智能项目提供新的数据来源。新闻集团（News Corp）是全球最大的新闻内容所有者之一（其大部分内容都隐藏在付费墙后面）最近表示，它正在与人工智能开发商谈判内容交易。这样的交易将迫使人工智能公司为训练数据付费，而到目前为止，他们大多是免费将其从互联网上删除的。内容创作者抗议未经授权使用其内容来训练AI模型，其中一些起诉了Microsoft，OpenAI和Stability AI等公司。为他们的工作获得报酬可能有助于恢复创意人员和人工智能公司之间存在的一些权力不平衡。

世良情感网

米言看科技