哈佛与谷歌联手!共发布百万书籍数据集

中关村在线 2024-12-13 10:18:23

哈佛大学与谷歌联手,共同发布了一项包含100万本公共领域书籍的数据集。这个数据集作为AI训练数据,将有助于提高AI技术的发展和应用。由于AI训练所需的数据成本较高,因此只有财力雄厚的科技公司才能承担得起。为此,哈佛大学计划通过发布一个大型数据集来解决这个问题。

这个数据集尚未公开发布,具体发布时间也未公布。然而,它源于谷歌的长期项目——谷歌图书。因此,谷歌将参与这次重要资源的分享。

此前,在今年3月时,哈佛大学曾透露了其“机构数据计划(IDI)”,表示该计划旨在为AI提供“合法、可靠和可信赖”的数据源。随后,在正式启动后,该计划确认得到了微软和OpenAI的资金支持。

IDI执行董事格雷格·莱佩特表示:“我们希望通过向各类机构开放这一庞大的数据集来让竞争环境更加公平。”这包括研究机构和AI初创公司等各类机构都可以使用这个数据集来训练大型语言模型。

0 阅读:3