Meta被指控利用盗版网站训练其大型语言模型Llama

Meta被指控利用盗版网站训练其大型语言模型Llama，近日引起了广泛关注。原告理查德·卡德雷和克里斯托弗·金登声称，Meta未经授权使用了受版权保护的内容来训练LLM模型，这违反了知识产权法。案件名为“Kadrey等人诉Meta平台案”，目前正在进行审判。

据媒体报道，Meta从LibGen这个大型资源库中获取了内容，并多次卷入版权诉讼。尽管其实际运营者身份不明，但证据表明Meta的确使用了盗版材料来训练AI。同时，Meta还从其他非法资源库中获取了内容用于AI训练。

Meta辩称，其使用公共材料的行为符合“合理使用”法律原则。该原则允许在特定情况下未经许可使用受版权保护的内容，只要具体情况具体分析即可。Meta表示，其使用文本仅是为了进行语言统计建模并生成原始表达。

需要注意的是，这并不是大型科技公司首次面临使用受版权保护内容训练AI模型的指控。去年的一项调查发现，苹果创建的OpenELM模型包含了来自超过17万个YouTube视频的字幕。虽然最初引发了对苹果使用受版权保护内容训练AppleIntelligence的担忧，但该公司后来澄清说，OpenELM是一个用于研究目的的开源模型，其数据库并未用于支持AppleIntelligence。

许多大型出版商选择不与AppleIntelligence训练共享其内容，因为它们认为AI技术应该受到严格的监管以保护用户的隐私和安全。然而，在当前环境下，大型科技公司仍需加强对其AI系统的监管和合规性，以确保遵守相关法律法规。