由于AI大模型对数据的渴求如同饕餮一般,就使得“数据荒”成为了过去两年间无数AI从业者最担忧的问题,因此各AI厂商更是八仙过海各显神通。日前有消息显示,OpenAI和谷歌为了获取更多“独家”视频用于训练视频生成模型,选择向创作者购买“从未公开”的内容。
相关消息源甚至连具体的价格都已经给出,如果是为YouTube、Instagram、TikTok准备的未发布视频,OpenAI和谷歌每分钟会支付1至2美元,且根据视频质量和格式的不同价格还可以商量。不得不说,在视频资源不断匮乏的情况下,绕开YouTube、TikTok等平台直接向创作者购买可谓是神来之笔。
所谓“从未公开”的视频,通常指的是“废片”。抛开普通用户纯粹为了分享生活,凡是在互联网平台通过内容变现的视频创作者,基本上都会涉及“剪辑”这一步,也就是从一众素材中剪出精华。但在去粗取精的过程中,自然就会有大量的素材会被放弃,这也就是OpenAI和谷歌所瞄准的从未公开的视频。
相比于已经发布的视频作品,“废片”的质量必然是差强人意的,如今OpenAI和谷歌连这样的内容也不放过,就只能说明相关厂商对于视频数据已经进入饥不择食的阶段。当然,这一切都是当下的市场环境逼得他们出此下策,毕竟获取非公开数据变得越来越难了。
众所周知,Scaling law(尺度定律)是AI大模型得以风起云涌的基础理论,它所指的是大模型的最终性能主要与计算量、模型参数量和训练数据量三者的相关,也证明了通过预训练中使用更多的数据和算力,能够让AI模型的性能暴涨。在Scaling laws的持续影响下,大模型赛道也就开启了“军备竞赛”,海量资金被用于购买GPU、筹建数据中心,以及购买数据。
本来在去年11月时,“ChatGPT之父”Ilya Sutskever突然站出来宣布Scaling Law已经达到了上限,未来依靠大规模GPU来提升模型性能可能不再有效,似乎表明未来大模型要换一种“卷”法。可结果国产开源模型DeepSeek-v3的横空出世,从侧面证明了谷歌AI Studio开发者平台产品负责人Logan Kilpatrick观点的正确性,“预训练只有在你失去想象力时才算结束。”
如此一来,在整个业界找到新的路径之前,大家还是要继续琢磨Scaling Law的上限。然而人类的数据确实还没有用完,有了Reddit将用户数据以6000万美元/年这个价格卖给AI厂商的操作珠玉在前,数据拥有者就已经普遍认识到了手中的数据是“金子”,因此向AI厂商漫天要价就成为了过去一年的新潮流。
为此,一众AI厂商甚至放下脸面搞起了歪门邪道。比如,AI独角兽Anthropic旗下爬虫ClaudeBot高频率地爬取中小网站,规模已经接近分布式拒绝服务攻击(DDoS)的水平。而科技杂志《连线》在去年夏季就曾发文称,英伟达、苹果被曝出大量窃取了Youtube上的视频字幕用于训练AI。
如今摆在AI初创企业、乃至一众大厂面前的现实,是数据已经变得越来越稀缺,拥有数据的互联网平台不是准备像Reddit一样把数据卖个好价钱,就是自己也有AI相关业务。例如YouTube背后是谷歌、Instagram背后是Meta,TikTok的背后则是字节跳动。
尽管按照Meta具身智能团队高级总监Dhruv Batra的说法,人类拥有的视频数量依然远超我们的处理能力。只是现在的情况让购买视频本身变得缺乏性价比,直接向个人或小团队购买未发布的视频反而是花小钱办大事。毕竟对于AI来说,“废片”的质量问题几乎可以忽略不计。
而对于视频创作者来说,有了OpenAI、谷歌出手购买“废片”显然也是极大的利好。毕竟以往他们的变现一直都高度依赖内容平台,无论是广告、流量分成都要经过平台之手,现在有人站出来愿意购买素材,反而就是一条赚外快的渠道。