ArsTechnica的内容现已在OpenAI服务中可用

黑客部落 2024-08-22 17:32:23

Condé Nast与其他出版商联手,允许OpenAI访问其内容。

周二,OpenAI宣布与Ars Technica的母公司Condé Nast达成合作协议,允许在其AI产品中展示来自知名出版物的内容,包括ChatGPT和新的SearchGPT原型。这项协议还允许OpenAI使用Condé的内容来训练未来的AI语言模型,涵盖诸如Vogue、The New Yorker、GQ、Wired、Ars Technica等知名品牌。财务细节未披露。

这项协议的一个直接影响是,ChatGPT或SearchGPT的用户将能够查看来自Condé Nast出版物的信息,这些信息来自助手对网络的实时视图。例如,用户可以问ChatGPT:“最新的Ars Technica关于太空的文章是什么?”ChatGPT可以浏览网络并提供结果,归属信息并为用户总结,同时链接到相关网站。

从长远来看,这项协议还意味着OpenAI可以公开和正式地利用Condé Nast的文章来训练未来的AI语言模型,包括GPT-4的继任者。在这里,“训练”意味着将内容输入到AI模型的神经网络中,这样AI模型可以更好地处理概念关系。

AI训练是一个昂贵且计算密集的过程,通常发生在重大新AI模型推出之前,虽然名为“微调”的次级过程可以持续进行。拥有高质量训练数据(如经过审核的新闻报道)能够提高AI语言模型提供准确答案的能力。

值得注意的是,Condé Nast的内部政策仍然禁止其出版物使用生成性AI创建的文本,这与该协议之前的AI规则一致。

不等待合理使用

通过这项协议,Condé Nast加入了与OpenAI合作的日益增加的出版商列表,包括美联社、阿克塞尔·施普林格、美国大西洋月刊等。一些出版物,如《纽约时报》,选择对OpenAI的内容使用提起诉讼,而且他们可能会赢得官司。

在给Condé Nast员工的内部邮件中,首席执行官罗杰·林奇将这项多年合作视为一种战略举措,以扩大公司内容的传播范围,适应不断变化的受众行为,并确保对公司知识产权使用的适当补偿和归属。林奇在邮件中写道:“这项合作承认了Condé Nast及其众多品牌所制作的卓越内容是不可替代的,且是朝着确保我们的技术驱动未来以负责任的方式创建的迈出的一步。”

林奇补充说,这一举动还为Condé Nast带来了额外收入,正值“许多科技公司削弱了出版商的内容变现能力,最近尤其体现在传统搜索中。”这项协议将使Condé能够“继续保护和投资于我们的新闻和创意事业,”林奇写道。

OpenAI的首席运营官布拉德·莱特卡普在声明中表示:“我们致力于与Condé Nast和其他新闻出版商合作,以确保随着AI在新闻发现和传递中扮演更重要的角色,它能够保持准确性、完整性和对优质报道的尊重。”

关于机器人和评论

从技术角度来看,该协议取消了Condé Nast最近对OpenAI网络爬虫(或称“机器人”)的robots.txt限制。这意味着,在经历了11个月的暂停后,OpenAI的机器人可以恢复收集用于训练AI模型的信息,以及用于ChatGPT检索增强功能的实时网络信息。这一暂停是在OpenAI的网络爬虫实践受到广泛审查之后实施的,出版商们意识到OpenAI通常不寻求出版物使用其数据(如文章)进行AI模型训练的许可。例如,Condé Nast的内容早已被纳入像GPT-4这样的语言模型中。

直到2023年法律挑战开始浮出水面后,OpenAI才开始从出版商那里获取内容的许可,以确保获取高质量的训练数据,同时在法庭上为其合理使用主张辩护(在被《纽约时报》起诉后)。大约在同一时间,OpenAI发布了有关网站如何阻止其AI训练数据网络爬虫GPTBot的说明,许多网站,包括Condé Nast拥有的网站,迅速采取了阻止措施。

林奇在今年早些时候的美国参议院作证时表示,基于抓取的网络内容训练生成性AI并不构成合理使用(正如OpenAI所声称的),且该技术是建立在“被盗财物”之上的。但是,出版物阻止GPTBot给OpenAI带来了另一个问题:当时,阻止该机器人也阻止了ChatGPT仅浏览这些网站(与抓取训练分开)以提取答案的能力。为了解决这一问题,OpenAI在7月推出SearchGPT原型时推出了一款新的爬虫机器人,名为OAI-SearchBot。

这项新协议的一个重要后果是,OpenAI的网络爬虫不再被robots.txt排除。随着对OpenAI的robots.txt排除的取消,该初创公司可以自由地抓取任何Condé Nast资产,包括Ars Technica。这意味着,OpenAI可以再次抓取网站的任何不需要登录查看的部分,包括用户评论。需要明确的是,在被阻止之前,用户评论已被抓取,但现在,在经过11个月的暂停后,它们将再次被抓取。在出版商协议、robots.txt合规性自愿性和大量盗版数据的情况下,似乎逃避爬虫(如Google、OpenAI、Perplexity、Microsoft等)的唯一可靠方法是选择不参与——这无疑是个代价惨重的选择。

最终,林奇认为,与OpenAI合作并获得补偿是应对科技领域迅速发展的AI助手新世界的最佳方式。这与他自今年1月访问参议院以来捍卫Condé知识产权免受不公平使用的使命相一致。

“这仅仅是个开始,我们将继续今年早些时候在华盛顿开始的工作,”林奇在关于此次协议的邮件中写道,“为行业内所有开发和部署人工智能的实体争取公平交易和合作伙伴关系,直到所有这些实体都认真对待出版商的权利,正如OpenAI所做的那样。”

0 阅读:3

黑客部落

简介:计算机安全技术分享,网络安全攻防技术分享