OpenAI转录了超过100万小时的YouTube视频来训练GPT-4

《纽约时报》的一份报告详细介绍了人工智能领域的大玩家试图扩大其数据访问的方式。

凯丝弗吉尼亚 / The Verge |照片来自Getty Images

本周早些时候，《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了公司处理这个问题的一些方式。不出所料，它涉及做一些落入人工智能版权法朦胧灰色地带的事情。

故事始于 OpenAI，据报道，OpenAI 急需训练数据，开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。据《纽约时报》报道，该公司知道这在法律上是有问题的，但认为这是合理使用。《纽约时报》写道，OpenAI总裁格雷格·布罗克曼（Greg Brockman）亲自参与了收集使用的视频。

OpenAI发言人Lindsay Held在一封电子邮件中告诉The Verge，该公司为其每个模型策划了“独特”的数据集，以“帮助他们理解世界”并保持其全球研究竞争力。Held补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴关系”，并且正在考虑生成自己的合成数据。

《泰晤士报》的文章称，该公司在 2021 年耗尽了有用数据的供应，并在浏览了其他资源后讨论了转录 YouTube 视频、播客和有声读物。到那时，它已经使用数据训练了模型，其中包括来自Github的计算机代码，国际象棋移动数据库和来自Quizlet的功课内容。

谷歌发言人马特·布莱恩特（Matt Bryant）在一封电子邮件中告诉The Verge，该公司已经“看到了未经证实的报道”，并补充说“我们的robots.txt文件和服务条款都禁止未经授权的抓取或下载YouTube内容”，这与该公司的使用条款相呼应。YouTube 首席执行官尼尔·莫汉（Neal Mohan）本周对 OpenAI 使用 YouTube 训练其 Sora 视频生成模型的可能性也发表了类似的话。布莱恩特说，谷歌会采取“技术和法律措施”来防止这种未经授权的使用，“当我们有明确的法律或技术依据时这样做”。

据《纽约时报》的消息来源称，谷歌还从YouTube上收集了成绩单。布莱恩特说，该公司已经“根据我们与YouTube创作者的协议，在一些YouTube内容上训练了其模特”。

《纽约时报》写道，谷歌的法律部门要求该公司的隐私团队调整其政策语言，以扩大其对消费者数据的处理范围，例如Google Docs等办公工具。据报道，这项新政策是故意在7月1日发布的，以利用独立日假期周末的分心。

Meta 同样遇到了良好训练数据可用性的限制，在《纽约时报》听到的录音中，其 AI 团队讨论了其在努力追赶 OpenAI 的同时未经许可使用受版权保护的作品。该公司在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，显然考虑过采取措施，例如支付图书许可费用，甚至直接收购一家大型出版商。在剑桥分析公司丑闻发生后，它以隐私为重点的改变，显然也限制了它使用消费者数据的方式。

谷歌、OpenAI 和更广泛的 AI 训练世界正在努力解决其模型快速蒸发的训练数据，这些模型吸收的数据越多，训练数据就越好。《华尔街日报》本周写道，到2028年，公司可能会超过新内容。

《华尔街日报》周一提到的这个问题的可能解决方案包括在他们自己的模型创建的“合成”数据上训练模型，或者所谓的“课程学习”，这涉及以有序的方式向模型提供高质量的数据，希望他们能够使用更少的信息在概念之间建立“更智能的联系”，但这两种方法都没有得到证实。还。但这些公司的另一种选择是使用他们能找到的任何东西，无论他们是否获得许可，并且根据过去一年左右提起的多起诉讼，可以说，这种方式不仅有点令人担忧。

原文标题：penAI transcribed over a million hours of YouTube videos to train GPT-4

原文链接：https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

作者：Wes Davis

编译：LCR

世良情感网

OpenAI转录了超过100万小时的YouTube视频来训练GPT-4

智能真的很好说