周一,苹果在加利福尼亚库比蒂诺举行的年度全球开发者大会上,首次推出了“Apple Intelligence”。然而,其新技术的核心——一系列由苹果开发的AI模型,却被ChatGPT集成到其设备操作系统的消息所掩盖。
自从合作的传闻首次出现以来,我们在社交媒体上看到了一些困惑,为什么苹果没有内部开发一个类似GPT-4的尖端聊天机器人。尽管苹果已经花了一年时间开发自己的大型语言模型(LLM),但许多人认为,集成ChatGPT(并为其他公司如Google Gemini敞开大门)是苹果缺乏创新的标志。
“这真的很奇怪。苹果如果愿意,肯定可以训练出一个非常好的竞争性LLM吧?他们已经有一年时间了,”AI开发者本杰明·德克雷克在X平台上写道。埃隆·马斯克也一直在抱怨与OpenAI的合作,并传播一些误解,他说:“苹果没有足够的聪明才智来开发自己的AI,却能确保OpenAI保护你的安全和隐私,这显然是荒谬的!”
虽然苹果内部开发了许多技术,但在必要时,它也从不避讳整合外部技术,从收购到内置客户端都有涉及——实际上,Siri最初是由一家外部公司开发的。
然而,与像OpenAI这样的公司达成协议,这家公司最近一直是多起科技争议的源头,因此可以理解一些人不明白苹果为什么做出这个决定——以及这对他们设备上的数据隐私可能意味着什么。“我们的客户有时会想要拥有一些世界知识的东西” 尽管Apple Intelligence主要利用了苹果自己开发的LLM,但苹果也意识到,有时用户可能希望使用公司认为目前“最好的”现有LLM——OpenAI的GPT-4系列。
在接受《华盛顿邮报》采访时,苹果首席执行官蒂姆·库克解释了优先集成OpenAI的决定:“我认为他们是该领域的先锋,目前他们拥有最好的模型,”他说。“我认为我们的客户有时需要一些具有世界知识的东西。因此,我们考虑了一切和每一个人。显然,我们不会永远只和一个人合作。我们也在与其他人整合合作。但他们是第一个,我认为今天是因为他们是最好的。”苹果将ChatGPT集成到iOS、iPadOS和macOS中的主要好处在于,它允许AI用户无需在不同的应用之间切换即可访问ChatGPT的功能——无论是通过Siri界面还是通过苹果的集成“写作工具”。用户还可以选择连接他们的付费ChatGPT账户以访问更多功能。
针对隐私问题的回答,苹果表示,在任何数据发送到ChatGPT之前,操作系统会征得用户的许可,并且整个ChatGPT体验是可选的。根据苹果的说法,请求不会被OpenAI存储,用户的IP地址也会被隐藏。显然,与OpenAI服务器的通信通过类似于在iOS上使用ChatGPT应用的API调用进行,据报道没有更深入的操作系统集成会在未经用户许可的情况下暴露用户数据给OpenAI。目前,我们只能相信苹果的说法,关于苹果AI隐私努力的具体细节将在今年晚些时候安全专家接触到新功能时浮出水面。
苹果的技术整合历史所以,你已经了解了为什么苹果选择OpenAI。
但是,为什么要寻求外部公司的技术呢?在某些方面,苹果将一个外部的LLM客户端集成到其操作系统中并不比以前所做的与流媒体视频(最初iPhone上的YouTube应用)、互联网搜索(Google搜索集成)和社交媒体(集成Twitter和Facebook分享)等集成有太大不同。媒体将苹果最近的AI举动定位为苹果在聊天机器人和生成式AI方面“追赶”谷歌和微软等竞争对手。但慢慢来并且保持冷静一直是苹果的惯用策略——不一定是引入最前沿的技术,而是通过改进现有技术并赋予其更好的用户界面来提升体验。例如,像其他成功的科技公司一样,苹果在必要时有着长期收购或授权其他公司技术的历史。
Macintosh(基于图标的GUI)、iTunes(应用本身)、Mac OS X(操作系统)、iPod(其操作系统和芯片组)、以及iPhone和iPad(多点触控)等产品中的关键创新依赖于从其他公司借用或收购的技术。正如我们提到的,苹果的Siri语音助手是2010年收购Siri Inc.的产物。Siri Inc.由SRI International的资深人士Dag Kittlaus、Adam Cheyer、Tom Gruber和Norman Winarsky于2007年创立。Siri最初是一个独立的iPhone语音搜索应用程序,后来在iOS 5中被整合并于2011年与iPhone 4S一同推出。
Siri背后的技术可以追溯到CALO项目(Cognitive Assistant that Learns and Organizes,即学习和组织的认知助手),这是一个由DARPA资助、在SRI International进行的人工智能研究计划。Siri由Kittlaus以一位挪威同事命名(Sigrid的简称,意为“美丽的胜利”),使用了在CALO项目期间开发的自然语言处理和机器学习技术。苹果收购Siri Inc.并将其服务整合到iOS中,标志着数字助手演变的重要里程碑——但科技不断进步,而Siri似乎停滞不前,这给了苹果另一个理由去寻求其研发部门以外的解决方案。OpenAI激发Siri的重生OpenAI的技术成为了激发Siri重生的动力。
自13年前Siri推出以来,尽管这些年进行了升级,但基于规则的助手在功能上仍然停滞不前,而谷歌和亚马逊等竞争对手则拥抱了更灵活的语音助手。目前,Siri仍然只能在用户说出有限的一组语音命令时提供帮助。在ChatGPT时代,当AI语言模型似乎能够理解各种问题的细微差别时,自然会有人问苹果何时会将类似的功能集成到Siri中。
现在,我们在周一的WWDC主题演讲中得到了答案。在今年晚些时候即将推出的新操作系统更新中,Siri将能够理解更复杂的自然语言,并具备用户设备“意识”(即能识别屏幕上的内容),从而能够作为助手引导用户完成任务,跨应用查找信息,并代表用户执行复杂操作。Siri革新的核心技术并不直接依赖于ChatGPT本身(尽管它是一个选项,如我们上面提到的),但《华尔街日报》报道称,GitHub Copilot(由OpenAI技术驱动)或ChatGPT的发布启发了苹果使用AI语言模型。
Siri正在通过设备上的大型语言模型(LLM)和在必要时对苹果AI服务器的更强大调用组合实现重生。苹果的LLM研究基于其他机器学习研究人员的工作成果,但苹果已将技术调整到其自身需求,重点放在隐私上。据报道,该公司一直努力尽可能多地在设备上进行AI处理,但也开发了一种新的隐私保护云处理技术,称为“私有云计算”。
通过这种方式,Siri将能够在保护用户隐私的前提下提供更强大、更智能的功能,使其在竞争激烈的语音助手市场中重新占据领先地位,并为用户带来更好的互动体验。正如我们过去所看到的,使用大型语言模型(LLM)如驱动ChatGPT、微软Copilot、Anthropic Claude和Google Gemini的那种模型可能会有一些缺点。如果没有通过微调和适当的审核进行良好调节,它们可能会生成带有种族歧视或负面刻板印象的输出。它们还可能以一种非常可信的方式编造内容(虚构),没有该主题的专家知识很难检测到。
此外,它们还可能被提示注入或越狱,从而失去安全防护。我们目前还不完全清楚苹果如何处理这些问题,以及让苹果用户访问本地LLM或外部LLM如ChatGPT是否会导致任何尴尬、误导甚至危险的时刻。我们所知道的是,苹果将继续以其一贯的方式发展:在朋友——和竞争对手——的帮助下。