要说在互联网上最容易引发网友共鸣的话题,除了各式各样的付费会员涨价、这种直接关乎大家钱包的事情之外,可能就要数与个人隐私相关的问题了,毕竟没有谁希望在互联网上“裸奔”。就在上周末有网文作者在社交平台发文称,“豆包用WPS云端数据训练AI”,给出的证据则是其编写的文档尚未发布、只存储在WPS云端,但字节跳动的豆包AI准确引用了相关内容。
经过一个周末的发酵之后,一家互联网厂商将用户未公开数据私相授受的“丑闻”呼之欲出。于是乎,WPS客户服务官微很快站出来辟谣,“近日有部分用户反馈WPS AI相关问题,我们第一时间进行了严格排查及用户沟通,相关问题完全失实”。并且WPS方面还强调,并未与字节跳动旗下的豆包AI进行任何AI层面的合作,不存在相关文档被用作AI训练的情况。
WPS如此急切地自证清白,背后其实也有原因,毕竟这已经是他们第二次卷入将用户文档作为AI训练语料的风波了。此前在去年11月16日,金山办公宣布旗下具备大语言模型能力的人工智能办公应用WPS AI开启公测。作为一项酝酿许久的AI应用,WPS AI上线后很快就引发了各方关注,但仅仅3天后就有用户发现,其隐私政策默认用户同意将主动上传的文档用于AI训练。
凭什么用户创作的内容要被WPS拿去训练AI?群情汹汹之下,WPS方面不得不紧急“灭火”。并承诺所有用户文档不会被用于任何AI训练目的,也不会在未经用户同意的情况下用于任何场景,还将定期进行隐私政策的审查,还会通过第三方独立机构进行合规性审核,以确保相关承诺兑现。
WPS方面当初公开承诺用户文档不会被用于训练AI这一“历史包袱”的存在,就导致了其对于“拿用户数据喂AI”极度敏感。
那么问题就来了,这一次WPS是否是明知故犯呢?其实他们是无辜的。首先,WPS与字节跳动在AI方面目前并未有任何合作,并且随着《个人信息保护法》的出台,互联网厂商将用户个人信息共享给其他第三方是有限制的,还需要单独取得用户的同意、而非所谓“一揽子同意”。
其次,WPS与字节跳动的豆包在AI赛道算得上是竞争对手。WPS AI支持文字、表格、PPT、PDF等主流办公组件,能提供快速起草文档、处理复杂函数公式、辅助阅读长文本等20余项功能,而字节跳动的豆包作为AI大模型产品,在文生文、文生图领域与WPS AI明显有竞争关系。
由数据产生的语料已经是AIGC迭代升级的燃料,只有通过不断地给AI喂养数据,才能让生成的结果越来越精准。如今“数据荒”甚至不再是一个高悬在AI厂商头顶的达摩克利斯之剑,而是真真切切地已经成为了这些厂商的难题,以至于各大巨头都开始饥不择食,毕竟以往都不能想象苹果、英伟达会用Youtube上的视频字幕来训练AI。
除了类似Reddit这类为了上市时财务更好看、从而出售自家用户数据的公司,凡是有志于在AI领域有所作为的厂商或许不会用灰色手段去爬取友商的数据,但必然会排斥将自家数据卖给第三方。毕竟AI功能可是WPS吸引用户购买价格更贵“大会员”的法宝,又岂有平白无故便宜字节跳动的理由?
最后、也是最关键的一点,这位网文作者指控WPS将用户文档交给豆包的理由,是其公开发表的作品里没有“手机掉入马桶”的情节,后者作为草稿只存储在WPS的云端。然而有神通广大的网友基于这位作者的网文书名和“手机掉入马桶”情节,在搜索引擎上找到了包含上述内容的盗版小说网站。
毕竟豆包大模型本质上也是一个AI搜索,它是从全网搜集资料之后、再整合来给出回答,这时候爬虫遍历全网时将盗版小说网站上该作者的网文扒走、作为参考资料也很符合逻辑。要知道,基于大语言模型的AI搜索在输出内容时就是“中译中”,所以有内容上的雷同并不奇怪。
至此,此事似乎也就水落石出了。不过有趣的是,互联网公司倒卖数据怎么就变成了一个如此有市场的网络迷因呢?这或许就是因为国内互联网企业在历史上,有着花样繁多、且不折手段的个人信息收集策略。在《个人信息保护法》以及工信部的强力监管之下,近年来互联网厂商收集用户信息的手段已经变得柔和了许多。
此前,工信部每隔一段时间都会公开侵害用户权益的App,诸如私自收集个人信息、私自共享数据给第三方,以及过度索取权限等侵害用户权益的例子可谓是数不胜数,甚至知乎、当当、七猫小说等上市公司旗下的产品都曾“榜上有名”。
用户数据作为互联网公司的一项重要资产,他们通过分析用户的行为数据就可以总结出某一类用户群体的偏好,从而完成用户画像。借助用户画像,互联网厂商就能知道每一位用户是什么年龄、性别、偏好,在这一基础上,数字广告行业的精准投放就成为了现实。所以互联网厂商之间互相共享用户数据,也早已是此前野蛮生长时代的公开秘密。
由于前科实在太多,所以一有风吹草动,就由不得用户不浮想联翩。更加致命的是,在厂商和用户的博弈中,用户往往处于绝对下风,厂商的数据处理对于用户而言更是纯粹的黑箱,并且即使是监管机构往往也缺乏技术资源做到事前监管。纵观过去曾被曝出的用户数据相关问题,几乎不是黑客攻破厂商的防御、拿着用户信息兜售,最后逼得厂商承认,剩下的几乎都是厂商内部人士的主动曝光。
无法跨越“塔西佗陷阱”,这其实就是当下国内互联网厂商在用户个人隐私方面的命门。
WPS:我们可没拿用户数据哦,不信你查查看!微软:咳咳,蓝屏这个事儿,咱们可以稍后再聊... 中国数据库市场:默默发财,不张扬~
WPS回应说是误会就完事了?那用户的隐私和信任问题怎么解决?
这个作者太迷之“自信”了,和地铁拍照门一个德行