谷歌AI搜索给网站的选择:要么分享数据,要么死

科技商业怎结合 2024-08-19 18:16:55

谷歌已经在搜索页面上显示AI答案,也就是说,搜索用户不需要前往提供答案的网站,就可以在AI答案中看到网站的内容。面对这一变化,网站只能配合,让谷歌AI汇总自己的内容 ,因为它们承受不起被谷歌封锁的代价。

谷歌工具会浏览网页内容,生成AI答案;之前它会追踪网页,生成搜索结果,二者本质上是一样的。如果网站不愿意分享内容,屏蔽谷歌工具,用户就很难在网上发现网站内容。

新闻出版商面临挑战

在搜索领域,谷歌拥有垄断地位,这种垄断转化成了谷歌的AI优势,搜索创业公司和出版商多有不满,它们大呼“不公平”。对于出版商来说问题可能更严重一些,因为它们被迫做出选择:要么向AI模型提供内容,AI可能会将它们的网站淘汰;要么从谷歌搜索中消失。

新闻网站Talking Points Memo的负责人Joe Ragazzo说:“出版商面临外部危机,无论怎么选择都是糟糕的。如果选择退出,你马上就会死;与谷歌合作只是死得慢一些,因为最终谷歌也会抛弃你。”

但是,按照谷歌的说法,AI Overviews工具是谷歌长期承诺的一部分,它希望能为出版商及其它企业提供更有质量的信息和更好的发展机会。

一位谷歌新闻发言人在声明中表示:“每一天谷歌会通过WEB向网站提供数十亿的点击,我们希望谷歌与网站的长期价值交换可以持续。通过AI Overviews,用户会发现搜索将变得更实用,然后用户就会持续回来,搜索更多内容,从而让内容被发现的机率大大提升。”

生成式AI带来改变

从谷歌建立那天起,它就用所谓的Googlebot抓取全球网站的内容,建立起庞大的信息内容库。正是因为索引的存在,其它企业很难挑战谷歌搜索,即便是财大气粗的微软也无法抗衡。

现在生成式AI带来了新机会,创业公司可以用AI模型向用户提供更为简洁的答案。面对新变化,谷歌有些恐慌,它担心搜索引擎会被淘汰,而在此之前许多人认为搜索引擎不可能出局。如果创业公司提供的AI可以威胁到谷歌业务,那么创业公司也必然会从网络上抓取内容。

当网站内容被抓取时,成本由持有内容的网站自己承担,它们要投入金钱、要提供算力、还要存储内容,所以出版商对于爬虫抓取有一套自己的规定。只有谷歌、必应受到优待,因为它们能通过搜索引擎给网站引流。

AI创业公司Tako的首席执行官Alex Rosenberg说,作为搜索创业公司,最开始时它们很弱小,无法为网站带来流量,所以年轻公司必须与出版商达成协议,向它们付费获取内容授权。

Alex Rosenberg称:“现在有许多科技公司为内容付费,因为它们需要获取这些内容,然后才能真正参与竞争。谷歌不一样,它没有必要这样做。”

当媒体公司与AI创业公司达成合作时,旁观的谷歌实际上并不高兴。据知情者称,谷歌与Reddit达成了价值6000万美元的内容合作协议,但谷歌向出版商暗示,它对协商没有什么兴趣。

面对强大的谷歌,媒体公司没有优势。年初时谷歌推出AI Overviews,媒体公司马上表达出担忧,它们担心网站流量会受到影响,但媒体公司并没有找到很好的应对方案。

谷歌搜索的绑定策略

谷歌为AI产品准备了特殊爬虫,Googlebot爬虫同时为AI Overviews和谷歌搜索服务。一位新闻发言人称,Googlebot管理着AI Overviews,因为AI与谷歌搜索引擎实际上是深度交互的。谷歌搜索页面会以多种方式呈现内容,包括图片。

谷歌说,出版商可以屏蔽特定页面或者页面的特定片断,让它们不要出现在AI Overviews中,但这样做也可能会阻止内容出现在谷歌其它搜索功能中。

出版商约有一半的流量来自谷歌搜索,面对屏蔽风险,出版商不敢冒险。

Raptive为出版商和有影响力的人发声,公司创新主管Marc McCollum认为,谷歌似乎低估了自身决定对内容创作者的威胁,对于那些高度依赖搜索的企业来说,威胁尤其大;一旦选择退出,创作者在整体搜索中的存在感将会大大降低。

iFixit网站提供消费电子维修指南,网站CEO Kyle Wiens说,相比与其它AI企业的合作,与谷歌的关系更紧张一些。他说:“我可以在不损害业务的情况下禁止ClaudeBot(指AI公司Anthropic的爬虫)抓取我们的内容,但如果将Googlebot禁了,我们会损失流量和客户。”

AI搜索创企面临困难

谷歌与Reddit达成合作,Perplexity也在与Reddit商讨内容授权问题,但谷歌设定的价格让创业公司难以跟进。谷歌说,与Reddit达成的合作意义深远,并不局限于训练数据。搜索创业公司Kagi的创始人Vladimir Prelovac说:“如果按谷歌的价格操作,我们要用20年的营收来支付费用。”

即使是实力强大的OpenAI也面临困难,它推出SearchGPT,相当于搜索版聊天机器人。亚马逊、Goodreads、Uniqlo全都禁止GPT抓取内容。OpenAI称,即使网站拒绝提供AI训练数据,网站内容仍会出现在搜索结果中。

Kagi公司至少有一半的成本来自于搜索数据抓取。拥有详细的网络索引是决定搜索引擎强弱的关键。Vladimir Prelovac称,对于那些想用AI直接输出答案的企业来说,数据显得更重要。

Vladimir Prelovac称:“生成式AI模型本身并不聪明,如果你想让生成式AI输出高质量内容,必须获取相同的搜索索引内容。”

搜索创业公司You.com的创始人Richard Socher说,robots.txt文件无处不在,它为抓取制定了规范,文件迫使创业公司做出更谨慎的考虑。由于法律并没有明确规定,所以企业可以大量抓取公开数据。

Richard Socher称:“当我们抓取内容时,总是想着不要给网站造成太重负担。只要是拥有robots.txt文件的网站,如果只让谷歌抓取,禁止其它企业抓取,本质上就是支持谷歌垄断搜索。”

Neeva是一家搜索创业公司,它提倡“抓取中立”原则,因为这一原则可以让创业公司打造自己的搜索索引。iFixit CEO Kyle Wiens认为,如果将谷歌搜索与它的AI产品分开,也许能解决问题。

DuckDuckGo公司认为,搜索正在经历革命,谷歌索引问题变得越来越重要。该公司高管Kamyl Bazbaz说:“在生成式AI时代,搜索索引极为重要。”

总之,出版商必须努力掌握自己的命运,不能过度依赖其它任何平台,包括谷歌。(小刀)

0 阅读:0

科技商业怎结合

简介:感谢大家的关注