OpenAI部署网络爬虫为GPT-5做准备

OpenAI 推出了一款名为“GPTBot”的网络爬虫工具，旨在增强未来 GPT 模型的功能。

该公司表示，通过 GPTBot 收集的数据可能会提高模型的准确性并扩展其功能，这标志着人工智能驱动的语言模型的发展迈出了重要一步。

网络爬虫（也称为网络蜘蛛）在为广阔的互联网内容建立索引方面发挥着关键作用。 Google 和 Bing 等著名搜索引擎依靠这些机器人来用相关网页填充其搜索结果。

OpenAI 的 GPTBot 将有一个独特的目的：收集公开数据，同时小心避开涉及付费墙、个人数据收集或违反 OpenAI 政策的内容的来源。

网站所有者只需在标准服务器文件中执行“禁止”命令即可阻止 GPTBot 抓取其网站。这使他们能够控制网络爬虫可以访问其内容的哪些部分。

OpenAI 紧接着该公司提交了“GPT-5”商标申请，预计该商标将接替当前的 GPT-4 模型。

该文件于 7 月 18 日向美国专利商标局提交，内容涵盖“GPT-5”在基于人工智能的人类语音和文本、音频到文本转换、语音识别和语音合成中的使用。

然而，尽管 GPT-5 商标申请让人工智能爱好者兴奋不已，但 OpenAI 首席执行官 Sam Altman 警告不要抱有过早的期望。 Altman 透露，该公司距离启动 GPT-5 培训还很远，因为在开始这一过程之前需要进行广泛的安全审核。

OpenAI 最近的努力并非没有引起争议。人们对该公司的数据收集做法感到担忧，特别是围绕版权和同意问题。

6 月，日本隐私监管机构就未经授权的数据收集向 OpenAI 发出警告。今年早些时候，意大利因涉嫌违反欧盟隐私法而暂时禁止使用 ChatGPT。

OpenAI 和微软目前还面临 16 名原告提起的集体诉讼，他们声称 ChatGPT 用户交互中的私人信息在未经适当同意的情况下被访问。这些公司还因 GitHub Copilot 而受到诉讼，原告指控该代码生成工具在未提供适当归属的情况下抓取了开发人员的代码，从而侵犯了开发人员的权利。

如果这些指控属实，OpenAI 和微软都有可能违反《计算机欺诈和滥用法》，这是与网络抓取案件相关的法律先例。

随着 OpenAI 不断突破人工智能技术的界限，它必须应对这些挑战，以确保人工智能领域负责任和道德的发展。

世良情感网