谷歌的AI概览功能在设计上存在缺陷,公司的一篇新博客文章暗示了其中的原因。谷歌表示,在其实验性的AI概览功能中,告诉人们吃石头这样的错误和异常情况“在所难免”。
周四,谷歌通过发布一篇题为“AI概览:关于上周”的后续博客文章,回应了一周来因该实验性功能提供不准确乃至有时危险答案而引发的风波。文章署名谷歌搜索部门负责人Liz Reid,文中正式承认了该功能的问题,并概述了改进措施,尽管未直接承认,但这些问题似乎源于设计缺陷。
回顾一下,几周前在谷歌I/O大会上展示的AI概览功能旨在利用与谷歌网页排名系统集成的人工智能模型,为搜索用户提供问题的总结性答案。目前,这是一个尚未对所有人开放的试验性功能,当参与的用户搜索某个主题时,可能会在搜索结果顶部看到由AI生成的回答,这些回答源自高排名的网页内容并由AI模型概括得出。
尽管谷歌声称这种方法“非常有效”,在准确性方面可与精选片段媲美,但过去一周出现了多个人工智能系统生成荒谬、错误乃至潜在有害回复的例子。正如我们在最近的一篇文章中详述的那样,Ars的记者Kyle Orland复现了许多不寻常的输出结果。从网络中得出错误结论
鉴于流传的AI概览示例,谷歌在博文中近乎道歉,表示“我们对自己有高标准要求,我们的用户也是如此,因此我们期待并重视反馈,并认真对待。”然而,Reid为了说明错误的原因,进一步揭示了AI概览为何会提供错误信息的一些关键细节:AI概览的工作方式与人们可能尝试过的聊天机器人和其他LLM产品大不相同。它们不仅仅基于训练数据生成输出。虽然AI概览由定制语言模型驱动,但该模型与我们的核心网页排名系统集成,旨在执行传统的“搜索”任务,如从索引中识别相关且高质量的结果。这就是为什么AI概览不仅提供文字输出,还包括相关链接,以便人们可以进一步探索。由于准确性在搜索中至关重要,AI概览被设计为只显示顶级网页结果支持的信息。这意味着AI概览通常不会像其他LLM产品那样“凭空想象”或编造信息。这里暴露了系统的根本问题:“AI概览仅显示顶级网页结果支持的信息。”
这一设计基于错误假设,即谷歌的页面排名算法偏爱准确结果而非被SEO操纵的垃圾信息。谷歌搜索已有一段时间存在问题,现在公司却依赖这些被操纵和充斥垃圾信息的结果来训练新的AI模型。即便AI模型从更准确的来源获取信息,就像上述1993年游戏机搜索的例子一样,谷歌的AI语言模型仍可能对“准确”数据做出不准确的结论,在现有信息的有缺陷摘要中拼凑出错误信息。谷歌的博客文章大体上忽略了基于破损的页面排名算法得出AI结果的荒谬之处,而是将广泛传播的错误归咎于多个其他因素,包括用户进行无意义的搜索以“故意产生错误结果”。
谷歌确实承认了AI模型的错误,比如误解查询、误解“网络上的语言细微差别”,以及在某些话题上缺乏足够高质量的信息。它还暗示,社交媒体上流传的一些极端例子可能是伪造的截图。“其中一些伪造的结果显而易见且愚蠢,”Reid写道,“还有一些则暗示我们在关于把狗留在车里、怀孕期间吸烟以及抑郁等话题上提供了危险的搜索结果。那些AI概览从未出现过。
因此,我们鼓励任何遇到这些截图的人自己进行搜索以验证。”(毫无疑问,社交媒体上的一些例子是假的,但值得注意的是,现在尝试重现那些早期例子很可能会失败,因为谷歌已经手动屏蔽了这些结果。如果人们一开始就相信了这些极端的虚假例子,那可能也是对谷歌搜索存在严重问题的一个证明。)在帖子中讨论“无意义搜索”的角度时,Reid举了一个例子:“我每天应该吃多少石头”,这个搜索在5月23日的一条推文中走红。Reid表示,“在这些截图疯传之前,几乎没有人向谷歌提出这个问题。”
由于网络上没有太多数据能回答这个问题,她称存在一个“数据真空”或“信息缺口”,这个缺口被网络上找到的讽刺内容填补,AI模型发现了这些内容并将其作为答案推送,就像精选片段可能会做的那样。所以,从本质上讲,这是按设计工作的。
由于负面舆论,谷歌声称已对AI概览系统进行了十多项技术改进。这些改进包括“更好地检测无意义的查询”、限制使用可能导致误导性建议的用户生成内容、对新闻和健康等敏感话题实施额外限制,以及在已知会产生错误结果的特定话题上手动抑制模型(即,由关键词触发的过滤器)。或许不出所料,公司对于目前的失败表现出了自我宽恕的态度。“在网络的规模上,每天有数十亿的查询,难免会出现一些怪异和错误。在过去25年中,我们学到了很多关于如何构建和维护高质量搜索体验的知识,包括如何从这些错误中学习,使搜索变得更好。”
即使允许面向数百万人推出的实验性软件存在一些错误,但AI概览中错误结果所暗示的权威性仍是个问题。事实仍然是,这项技术本身并不保证事实准确性,而是反映了谷歌网页排名中发现的网站不准确性,这种权威性可能误导人们。你会认为科技公司会努力建立客户信任,但现在他们正在构建AI工具,同时告诉我们不要相信结果,因为它们可能是错的。
也许这是因为我们实际上并不是客户,而是产品本身。或许在该功能大规模推广之前,谷歌能够解决这些问题,但就目前来看,AI概览似乎仍会偶尔输出不寻常或不可信的结果,而公司的AI搜索团队则会在发现问题时进行应对。