一项新法案希望揭示人工智能训练数据中的真正内容

众议员亚当·希夫（Adam Schiff）的法案得到了几个娱乐业团体的支持。

插图：Cath Virginia / The Verge |照片：Getty Images

一项新法案将迫使科技公司披露任何用于训练其人工智能模型的受版权保护的材料。

众议员亚当·希夫（D-CA）的生成式人工智能版权披露法案将要求任何为人工智能制作训练数据集的人向版权登记处提交有关其内容的报告。报告应包括数据集中受版权保护的材料的详细摘要，以及数据集的 URL（如果是公开的）。此要求将扩展到对数据集所做的任何更改。

公司必须在使用训练数据集的人工智能模型向公众发布之前“不迟于30天”提交报告。该法案不会追溯到现有的人工智能平台，除非在成为法律后对其训练数据集进行更改。

希夫的法案触及了自生成式人工智能兴起以来艺术家、作家和其他创作者一直在抱怨的一个问题：人工智能模型经常在未经许可的情况下在受版权保护的材料上进行训练。版权和人工智能一直很难驾驭，尤其是在人工智能模型在多大程度上改变或模仿受保护内容的问题尚未解决的情况下。艺术家和作家已经通过诉讼来维护自己的权利。

人工智能模型的开发人员声称他们的模型是根据公开可用的数据进行训练的，但大量的信息意味着他们不知道哪些数据是受版权保护的。公司表示，任何受版权保护的材料都属于合理使用。与此同时，这些公司中的许多公司已经开始为一些客户提供法律保障，如果他们发现自己因侵犯版权而被起诉。

希夫的法案得到了美国作家协会（WGA）、美国唱片业协会（RIAA）、美国导演协会（DGA）、美国演员工会-美国电视和广播艺术家联合会（SAG-AFTRA）和作家协会等行业团体的支持。值得注意的是，美国电影协会（MPA）没有出现在支持者名单中，该协会通常支持保护受版权保护的作品免受盗版的举措。（披露：The Verge的编辑人员与美国东部作家协会（Writers Guild of America， East）建立了工会关系。

其他团体则试图提高训练数据集的透明度。Fair Trained 组织希望为 AI 模型添加标签，如果他们证明他们要求允许使用受版权保护的数据。

原文标题：A new bill wants to reveal what’s really inside AI training data

原文链接：https://www.theverge.com/2024/4/10/24126382/copyright-ai-bill-congress-schiff-training-data

作者：Emilia David

编译：LCR

世良情感网

一项新法案希望揭示人工智能训练数据中的真正内容

智能真的很好说