OpenAI盯上“废片”，视频创作者的春天要来了

由于AI大模型对数据的渴求如同饕餮一般，就使得“数据荒”成为了过去两年间无数AI从业者最担忧的问题，因此各AI厂商更是八仙过海各显神通。日前有消息显示，OpenAI和谷歌为了获取更多“独家”视频用于训练视频生成模型，选择向创作者购买“从未公开”的内容。

相关消息源甚至连具体的价格都已经给出，如果是为YouTube、Instagram、TikTok准备的未发布视频，OpenAI和谷歌每分钟会支付1至2美元，且根据视频质量和格式的不同价格还可以商量。不得不说，在视频资源不断匮乏的情况下，绕开YouTube、TikTok等平台直接向创作者购买可谓是神来之笔。

所谓“从未公开”的视频，通常指的是“废片”。抛开普通用户纯粹为了分享生活，凡是在互联网平台通过内容变现的视频创作者，基本上都会涉及“剪辑”这一步，也就是从一众素材中剪出精华。但在去粗取精的过程中，自然就会有大量的素材会被放弃，这也就是OpenAI和谷歌所瞄准的从未公开的视频。

相比于已经发布的视频作品，“废片”的质量必然是差强人意的，如今OpenAI和谷歌连这样的内容也不放过，就只能说明相关厂商对于视频数据已经进入饥不择食的阶段。当然，这一切都是当下的市场环境逼得他们出此下策，毕竟获取非公开数据变得越来越难了。

众所周知，Scaling law（尺度定律）是AI大模型得以风起云涌的基础理论，它所指的是大模型的最终性能主要与计算量、模型参数量和训练数据量三者的相关，也证明了通过预训练中使用更多的数据和算力，能够让AI模型的性能暴涨。在Scaling laws的持续影响下，大模型赛道也就开启了“军备竞赛”，海量资金被用于购买GPU、筹建数据中心，以及购买数据。

本来在去年11月时，“ChatGPT之父”Ilya Sutskever突然站出来宣布Scaling Law已经达到了上限，未来依靠大规模GPU来提升模型性能可能不再有效，似乎表明未来大模型要换一种“卷”法。可结果国产开源模型DeepSeek-v3的横空出世，从侧面证明了谷歌AI Studio开发者平台产品负责人Logan Kilpatrick观点的正确性，“预训练只有在你失去想象力时才算结束。”

如此一来，在整个业界找到新的路径之前，大家还是要继续琢磨Scaling Law的上限。然而人类的数据确实还没有用完，有了Reddit将用户数据以6000万美元/年这个价格卖给AI厂商的操作珠玉在前，数据拥有者就已经普遍认识到了手中的数据是“金子”，因此向AI厂商漫天要价就成为了过去一年的新潮流。

为此，一众AI厂商甚至放下脸面搞起了歪门邪道。比如，AI独角兽Anthropic旗下爬虫ClaudeBot高频率地爬取中小网站，规模已经接近分布式拒绝服务攻击（DDoS）的水平。而科技杂志《连线》在去年夏季就曾发文称，英伟达、苹果被曝出大量窃取了Youtube上的视频字幕用于训练AI。

如今摆在AI初创企业、乃至一众大厂面前的现实，是数据已经变得越来越稀缺，拥有数据的互联网平台不是准备像Reddit一样把数据卖个好价钱，就是自己也有AI相关业务。例如YouTube背后是谷歌、Instagram背后是Meta，TikTok的背后则是字节跳动。

尽管按照Meta具身智能团队高级总监Dhruv Batra的说法，人类拥有的视频数量依然远超我们的处理能力。只是现在的情况让购买视频本身变得缺乏性价比，直接向个人或小团队购买未发布的视频反而是花小钱办大事。毕竟对于AI来说，“废片”的质量问题几乎可以忽略不计。

而对于视频创作者来说，有了OpenAI、谷歌出手购买“废片”显然也是极大的利好。毕竟以往他们的变现一直都高度依赖内容平台，无论是广告、流量分成都要经过平台之手，现在有人站出来愿意购买素材，反而就是一条赚外快的渠道。