据报道,谷歌图书索引了糟糕的人工智能写作作品

智能真的很好说 2024-04-18 09:04:48

索引低质量的书籍可能意味着语言研究工具Ngram也会得到垃圾结果。

插图:The Verge

谷歌图书(Google Books)对已出版的材料进行索引,并已成为学术界必不可少的工具,它已经开始对低质量的书籍进行索引,这可能会影响其语言跟踪工具Ngram的信息。

404Media报道称,谷歌图书收录了几本人工智能可能写的书。该出版物使用“截至我上次知识更新”一词搜索了 Google Books,这是 ChatGPT 等聊天机器人使用的常用短语。您可以在 Google 图书中搜索特定的句子或术语,它通常会发回带有这些短语的书面作品。

它发现,在搜索的前几页中,大多数书籍都是关于人工智能的作品,但散布在这些结果中的是那些没有谈论这项技术的书,似乎是由机器人写的。

404Media表示,它找到的书籍,如Tristin McIver的《Bears, Bulls, and Wolves: Stock Trading for the Twenty-Year-Old》,看起来像是这些在维基百科上搜集有关金融事件的信息,并且确实包含了“截至我上次知识更新”这句话。其他关于 Twitter 等主题的书籍仍然包含 2021 年的信息,当时一些 AI 模型最后一次获得训练数据。

谷歌图书(Google Books)的大部分数据都支持其Ngram查看器,Ngram查看器是一种研究工具,用于跟踪语言随时间的变化。Ngram 从书面作品中获取信息,以展示语言使用是如何演变的。

Google Books 扫描并索引了可追溯到 1500 年代的书面作品,Ngram 最后一次更新其引用的数据是在 2019 年。尽管 Ngram 并不完美,但许多语言学家和其他学者都使用该工具进行研究收集。

谷歌告诉404Media,最近在Google Books上的作品不会出现在Ngram的结果中,但这些作品可能会出现在未来的数据更新中。

原文标题:Google Books reportedly indexing bad AI-written works

原文链接:https://www.theverge.com/2024/4/5/24122077/google-books-ai-indexing-ngram

作者:Emilia David

编译:LCR

0 阅读:0

智能真的很好说

简介:感谢大家的关注