(报告出品方/作者:国泰君安证券,秦和平)
1.多模态LLM进化,颠覆性变革人机交互方式
人机交互方式的变革,显著降低AI应用门槛,可能带来新一轮生产力革命。回顾人机方式的变革:从命令行交互到图形交互,引爆了Windows等一系列操作系统的推广;从图形交互到触控交互,引爆了智能手机的推广。新一轮由LLM驱动的多模态交互方式,大幅提升了自然语言理解能力,加入视觉感知能力,是对人机交互方式的又一次颠覆。我们认为,AI应用门槛将随着人机交互方式的简化而降低,从而引领新一轮生产力革命。
LLM驱动的人机交互:LLM取代复杂的软件成为交互入口和中介,使用自然语言即可调用。传统的人机交互方式:根据需求情景、数据类型的不同,用户需要应用不同的软件。交互特点是交互接口繁琐而多样化,且具备一定的交互门槛,例如使用Photoshop编辑图像,对用户的专业技能有一定要求。而LLM驱动的人机交互方式:LLM取代各类软件成为交互接口,站到了人机交互的中心位置,各类软件站在了LLM幕后,用户只需使用自然语言调用LLM即可。现阶段LLM表现对用户的Prompt较敏感,我们认为随着LLM理解能力的提升,最终人与LLM的对话门槛将进一步降低。
GPT-4o支持文字、语音、图像三种交互方式,是实现AI时代人机交互的技术基底。GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出,这种跨文本、音频和图像进行实时推理的能力,向更自然的人机交互迈出了重要一步。1)语音方面:相较于当下的语音助手(如未引入AppleIntelligence前的Siri),GPT-4o在三方面具有颠覆性提升:一是用户可以随时打断GPT-4o的话,不用等它说完就可以继续下一轮对话;二是模型延迟极低,对音频输入的响应时间平均为320毫秒,与人类在对话中的响应时间相似(GPT-3.5平均延迟2.8秒,GPT-4平均延迟5.4秒);三是模型能够充分理解人类的情感和状态(累不累,喘气粗不粗),自己也能输出各种感情。2)视觉方面:当前GPT-4o的视觉理解能力体现在对图像中物体和复杂情景的精准识别与理解、对人脸表情的识别与情绪检测。例如可以解决手写的方程式、识别人面部表情等。
AIAgent是交互的载体和入口,Agent将集成、统一各类APP的入口,成为操作系统级别的“超级APP”。LLM是人机交互的技术底座,而AIAgent是交互的载体和入口,用户直接与Agent发生联系。当前用户的各类需求由各个独立的APP分别承接,以旅行为例:订票需要OTA平台,通勤需要火车票/机票/打车平台,饮食需要美团/抖音等团购平台,制定攻略需要小红书等内容社区,查看天气需要天气类APP。而Agent将作为一个统一的入口,集成各类需求和功能,完成一体化式调度。再以旅行为例:用户将目的地、预算、时长等信息以自然语言输入给Agent后,Agent会结合用户的个性化偏好,统一调度各个独立的APP,自主完成订门票、订机酒、选餐厅、制作旅游攻略、穿衣提示等操作。Agent将成为操作系统级别的超级APP,用户只需与Agent建立联系,由Agent打通各独立的APP。
2.安卓、iOS、Windows系统的人机交互载体:多模态智能体助手(Agent)
2.1.安卓:Astra打通安卓体系,ScreenAI具备读屏能力
Android系统:谷歌推出ProjectAstra,具备Agent潜力。Astra是谷歌推出的AI智能体,支持视觉与语音交互。Astra可理解现实物理世界的复杂信息,能够横跨物理、编程、文学、地理等多个维度,与用户在现实世界中进行实时交流。例如,在与用户交互的过程中,Astra可识别桌上摆放的音箱,能根据用户进一步的指向,对应解释音箱上的高频扬声器的功能;能看懂电脑屏幕上的算法代码;识别著名建筑并推理出当前所在位置等。我们认为,Astra进化出的多模态能力,是其成长为Agent的技术基础。
ScreenAI具备“读屏”能力,支持Agent进行系统级操作。屏幕用户界面(UI)和信息图表(例如图表、图解和表格)在人机交互中发挥着重要作用,但由于其复杂性和多种呈现格式,对大模型的识别和理解能力要求较高。谷歌团队推出ScreenAI,是一种理解用户界面和信息图表的视觉语言模型,具备三种能力:一是问答能力,模型回答与截图内容有关的问题,例如餐厅什么时候开门;二是屏幕导航,模型将自然语言表达转换为屏幕上可执行的操作,例如单击搜索按钮;三是屏幕摘要,模型用一两句话总结屏幕内容。我们认为,UI对屏幕的理解能力支持Agent进行系统级操作,是Agent落地端侧设备、颠覆人机交互体验的前提。
2.2.iOS:AppleIntelligence重做系统,Siri成为人机交互的入口
iOS系统:用AppleIntelligence重做系统,Siri成为人机交互的入口。AppleIntelligence的推出,将AI内置于操作系统层面,而Siri作为语音交互助手,具备屏幕感知能力、跨应用操作能力、行为智能能力,是理想的Agent、人机交互入口。1)Siri具备屏幕感知能力:具备屏幕感知能力的Siri将能够理解用户在众多APP中的内容,并据其进行相应操作。例如,当用户填写表格需要输入驾照号码时,Siri可以自动感知、自动搜寻电子驾照并提取相关号码,自动化完成表单填写。2)Siri具备跨应用操作能力:结合AppleIntelligence,Siri有能力在各类Apple原生及第三方APP中完成数百种操作。例如,“照片”应用直接编辑用户正在浏览的图片,并在短信或第三方社交APP内发送,全过程由Siri代为操作。跨应用操作能力,是Agent处理复杂多任务的基础。3)Siri可深层次理解用户任务,具备“行为智能”:当前AIGC涌现的功能主要体现为“内容智能”,即根据指令生成内容,而AppleIntelligence支持下的Siri涌现出“行为智能”,即基于用户交互行为、理解操作、完成任务的智能,能够对用户的行为进行分析和判断,在产生更深层次的理解后驱动设备及应用完成任务。例如,用户可以提问:“我朋友的飞机几点落地?”Siri会自行查询航班详情,然后与航班的实时执飞轨迹交叉对比,给出抵达时间,参考在备忘录中写的用餐地址,帮助计算能否按时到达餐馆。
推出iOS18.1开发者测试版,AppleIntelligence开始落地。7月30日,苹果发布了iOS18.1、iPadOS18.1和macOSSequoia15.1的开发者测试版(目前都仅向每年支付99美元的注册苹果开发者开放),本次更新添加了此前WWDC大会上预告的部分AppleIntelligence功能,后续AppleIntelligence的进一步更新(如AppleIntelligence加持的Siri)预计将于2025年推出。我们认为本次iOS测试版更新标志着AppleIntelligence开始落地,后续iPhone16系列搭载的正式版iOS18将进一步颠覆人机交互体验。
自研端侧模型+云侧模型,模型表现追平头部模型。苹果公布了支持AppleIntelligence的两个基础模型:端侧模型AFM-on-device(AFM即AppleFoundationModel)约30亿参数,于设备端运行;云侧模型AFM-server为基于服务器的云端模型(参数未披露),使用私有云计算(PrivateCloudCompute)系统在苹果的云基础设施中运行,以保护用户数据。苹果基于大量的数据优势,对于常用任务,引入了Adapters,专门针对工具调用、书写、指令理解、摘要等方面进行优化,显著提升在邮件、信息、提醒方面的实际表现。在人类测试中,AFM-on-device超越了Phi-3-mini、Mistral-7B、Gemma2B等开源模型,接近Llama-3-8B的水平,AFM-server超越Llama-3-70B、Mixtral-8x22B、GPT-3.5等闭源模型,接近GPT-4的能力。
FerretUI具备读屏能力,类似ScreenAI,支持AIAgent实现系统级操作。苹果发布的论文中,FerretUI是为移动UI定做的大模型(类似于谷歌的ScreenAI),可理解手机屏幕并执行任务,具备引用、定位和推理能力。FerretUI的屏幕理解能力将辅助Agent实现系统级操作,是Agent落地端侧设备、颠覆人机交互体验的前提。
FerretUI在三方面做出优化,大幅提升可用性,而可用性是苹果设备领先于安卓的最大优势。FerretUI采用MLLM技术路线,针对可用性做出了三方面优化:一是FerretUI能够识别和处理不同宽高比的屏幕,可以理解同一个页面不同尺寸的适配方案;二是增强了识别小尺寸图像的能力,比如icon、按钮、文本等等,能够更准确地识别和定位屏幕上的各个元素及其功能;三是在识别图像后更进一步,能够理解对话和推断任务,也即理解屏幕内容变化与用户操作结果之间的关系,更好地响应用户的指令。
以Siri为代表的人机交互能力变革,将改变操作系统的生态,搜索以及调用的流量入口从各个应用程序回归到硬件端。Siri的屏幕感知能力、跨应用操作能力、行为智能能力,使其具备超级入口的潜质,未来Agent将成为操作系统的主导,而应用的形态和功能将被弱化乃至取代。或许应用只需以API的形式接入Agent中,以供Agent调用,而无需以独立APP的形态出现。形态的变化实际意味着话语权的更迭,Agent以及操作系统将掌握流量的分发权。应用程序转变为“服务提供商”,向Agent开放服务接口。新的人机交互范式下,Agent直接服务用户,而应用程序为APP提供服务,应用展现出原子化的趋势,存在形式或由独立APP转变为接入Agent的API接口。
2.3.Windows:Copilot+PC实现Agent构想
Windows:Copilot+PC率先实现Agent构想。从交互方式来看,用户只需轻点Copilot按键即可快速交互,进行自然语音对话。从功能看,Recall功能可搜索和回忆用户在PC上看到或做过的任何事情,Cocreator功能可在设备上近乎实时地生成和优化AI图像,并通过实时字幕消除语言障碍,将多种语言的音频翻译成英语;Windows系统界面里任何东西都可以拖向Copilot窗口里,与LLM交互。
3.多模态人机交互模式与新商业空间
3.1.苹果:Siri或重塑系统生态,软件收入逻辑迎来颠覆
3.1.1.短期推动存量设备换新
类似5G升级驱动的换机潮,本轮AppleIntelligence或将驱动新一轮换机潮。苹果的AI端侧运算对终端设备的硬件规格要求较高,需要搭载A17pro/M1以上规格芯片、内存达8G以上才可使用iOS18的AI功能,目前手机机型中仅iPhone15pro和iPhone15promax以上机型才能支持AI功能,或将拉动存量用户换新。
截至2024Q2仅7%的存量设备支持AppleIntelligence,换新空间广阔。支持AppleIntelligence的iPhone15pro+promax在2023年/2024Q1/2024Q2合计出货5400万台/2255万台/1763万台,占当期iPhone出货量的23%/45%/39%。从存量角度来看,截至2023年/2024Q1/2024Q2支持AppleIntelligence的存量设备数量(即iPhone15pro+promax)仅占当期iPhone存量设备总数的4%/6%/7%,仍存在大量旧机型无法支持AppleIntelligence,换新空间广阔。
AppleIntelligence硬件的升级带来成本上涨及相应的ASP上调。以高通骁龙8Gen4为例,台积电3nm技术成本上涨(3nm工艺下每片晶圆的价格大约比5nm高出25%),导致骁龙8Gen4报价预计比骁龙8Gen3高出约25%~30%。我们预计搭载最新A18芯片及8GB以上内存的iPhone16系列将提振ASP重回900美元/台,扭转iPhone15系列因降价促销而导致ASP下滑的趋势。
3.1.2.长期看,系统生态重塑,打开软件收入空间
端侧AI演进下,设备本身集成了AI功能,或取代第三方APP。以苹果2024WWDC公布的最新功能为例,多项AI功能集成于操作系统和原生应用中,并可在不同的应用场景灵活调用,将强烈冲击第三方APP。我们认为,AppleIntelligence重做原生应用后,设备本身就集成了AI能力,或冲击和取代第三方垂类APP。长期来看,当部分第三方垂类APP出清后,原生应用或可实现货币化。
Agent带来新生态,苹果软件收入逻辑或迎来颠覆。长期来看,Agent颠覆了当前的应用生态,Agent成为操作系统的入口和主导,为苹果的软件收入注入了新的逻辑。我们从两个角度:苹果税收入(当前存在的商业模式)和非苹果税收入(新商业模式),分别测算AppleIntelligence及Agent落地带来的潜在商业空间。从苹果税(APPStore收入)的角度来看:苹果向开发者开放了AppleIntelligence的API接口,开发者能够通过AppIntentsAPI在自己的应用程序中引入AppleIntelligence,接入到苹果的AI生态内,供Siri调用。开放的API接口将吸引开发者加入,大大丰富苹果生态,APP数量和付费场景数量都将得以提升,进而提升苹果税收入。我们对2025年APPStore收入(苹果税收入)做敏感性测试,中性情景下(APPStore交易额同比增长15%、Takerate25.30%)2025年苹果税收入288亿美元,同比2023年增长29%。我们认为AppleIntelligence丰富APPStore的生态将长期体现在苹果税的收入提升中。
从非苹果税的角度来看:我们认为,Agent重塑生态系统逻辑后,苹果服务收入主要有三个来源的增量。1)第三方应用:第三方应用向Siri提供调用权限或API接口,对于同质化的服务,由Siri控制流量分发权。比如用户“点一份轻食外卖”而未指定外卖平台,此时由Siri自行选定接入哪一个外卖平台。第三方应用向苹果缴纳推广费及收入分成,以提升调用量和流量分发权重,类似谷歌向苹果缴纳广告收入分成以保证谷歌为默认搜索引擎。2)原生应用:如上文所述,AppleIntelligence重做的原生应用将是苹果变现的另一个来源,苹果可直接收取订阅费或买断费。我们推测,苹果可能推出两种收费模式:一是分别对单个应用收费,二是对AppleIntelligence功能进行打包统一收费。3)大模型商:用户通过Siri可唤醒大模型,除了苹果自研的端侧/云侧大模型外,也可接入外部模型,苹果与OpenAI达成合作,用户可通过Siri直接调用GPT。当前的生态下,并未出现统一的大模型方案,苹果22亿存量设备将会是大模型厂商争夺的富矿,苹果或可根据调用量收取佣金。需要指出的是,短期(约3年内)AppleIntelligence或不会收费,因AppleIntelligence功能尚未完善、消费者习惯和心智需要培养,短期内无法体现于业绩,变现将是长期过程。
1)第三方应用:在端侧AIAgent与第三方应用之间的博弈中,我们认为端侧Agent为较为强势的一方。一方面,对于用户模糊不清的指令,Agent可以结合用户的历史习惯进行自主决策,例如Siri自主选择美团下单外卖。另一方面,Agent具有基于用户需求和个性化数据进行自主学习的能力,Siri会主动向用户推送特定的应用和功能,例如Siri在下班时间会主动弹出打车界面并询问是否需要打车。无论何种情况,Siri都占据了流量入口、拥有流量分发权。我们认为,新的生态秩序的建立需要较长时间,长期来看,变现机会体现在第三方应用为争夺流量而向Siri付费,可参考谷歌为保证成为Safari默认搜索引擎而每年向苹果缴纳收入分成(2022年谷歌向苹果支付了200亿美元)。
2)原生应用:我们首先从单个应用角度测算潜在变现空间。以原生的Writingtools功能与第三方写作工具Grammarly做对比。相较于免费版,Grammarly会员版具有重写句子、调整语气、使用提示词(prompts)进行本文生成等进阶功能,与AppleIntelligence支持的Writingtools较为相似。我们分别使用自上而下、自下而上两种方法,测算Writingtools潜在的变现空间,在中性情况下,两种方法分别测算得出年收入为2.34/2.37亿美元,乐观情况下可达约10亿美元。需要指出的是,AppleIntelligence将重做所有的原生应用并可能开发出新的原生应用,长期变现空间极为广阔。
我们再从AppleIntelligence整体角度测算变现空间。据CounterpointResearch预测,苹果或对AppleIntelligence功能收取10~20美元/月的费用。参考苹果目前现有的APPLEONE(包括iCloud、Music、TV+、Arcade)的订阅费用为19.95美元/月,我们合理假设AppleIntelligence收费标准为20美元/月,并保守假设苹果付费用户数10亿人(CY23Q2数据)。针对支持AppleIntelligence的设备的比例、AppleIntelligence付费渗透率,进行敏感性测算,中性情形下AppleIntelligence或带来600亿美元/年的收入。
3)大模型:用户通过Siri调用端侧和云侧的大模型,我们认为,端侧模型收入贡献或体现在ASP提升,购机时一次性收取;云侧模型收入按调用次数收取或采取按月订阅制。我们此处仅考虑文本大模型的潜在变现空间(不考虑多模态大模型)。参考豆包和文心一言的每日tokens使用量,参考GPT4otokens输入价格和输出价格,假设20%推理在云端完成、80%推理在端侧完成,并假设2025年活跃设备中有12%可支持AppleIntelligence,测算可得用户调用云端大模型可为苹果带来约0.82亿美元/天的收入。
3.2.谷歌:交互门槛降低带来调用量增长,人机交互在谷歌生态圈内闭环完成
Astra有望充分释放谷歌全家桶的潜力,复刻“GoogleIntelligence”。谷歌的原生应用全家桶与Agent可顺利融合。当前AIAgent应用落地的一大阻碍是,因为Agent(如Siri)可自主调用各应用,有流量分配权(例如Siri选择调用美团点外卖,而不是饿了么),因此部分第三方应用为了自主把握流量入口权,可能拒绝将调用权限放给手机的Agent。谷歌拥有以搜索、地图、邮件、YouTube为代表的原生应用,自家的AIAgent可顺利获取应用的调用权,因此Agent和应用之间的融合度更高。
全新人机交互模式下,多模态输入、自然语言交互将大大降低软件应用门槛,谷歌应用用户数有望突破性增长。我们认为,AI助手(Agent)的多模态交互能力、语义理解能力,将彻底颠覆人机交互模式。未来的搜索方式,将从过去的打字输入、关键词提问,迭代为语音/视觉输入、自然语言提问,大大降低搜索门槛,实现“对话式”搜索。除搜索外,谷歌的应用全家桶生态都将受益于全新的人机交互模式,例如与地图APP导航的语音交互将解放司机双手,与邮件APP的语音交互将大幅降低邮件编辑的繁琐性,将图片或视频导入YouTube进行编辑只需语音发出指令。我们认为,软件应用门槛大幅降低后,谷歌应用全家桶将迎来爆发式的用户增长、流量增长,推动广告收入增长。相较于SearchGPT、Perplexity等AI搜索,谷歌的优势在于具备流量入口(AI助手ProjectAstra)及全方位的应用生态,多模态交互式搜索将在谷歌生态圈内闭环完成。部分投资者担忧SearchGPT、Perplexity等AI搜索工具将瓜分谷歌流量。Perplexity获得成功的原因在于,其本质上是对话式答案引擎,而非算法赋能的传统搜索引擎,改进了交互模式,降低了搜索门槛。用户直接输入一句话,无需绞尽脑汁地思考关键词,且Perplexity输出具备逻辑性的答案,而非匹配一堆无关的网页。我们认为,谷歌搜索相较于Perplexity这类单纯的AI搜索产品,优势在于:一方面谷歌的AI助手ProjectAstra根植于安卓操作系统中,是掌握流量分配权的“大脑”,用户直接与AI助手交互,再由AI助手调用搜索引擎,谷歌掌握了流量入口,整个多模态交互式搜索的过程都将在谷歌生态圈内闭环完成;另一方面,谷歌除搜索引擎以外,具备全方位的产品矩阵,可在搜素结果中引用、调用、引流其他各产品,搜索生态更为完善。
大模型幻觉导致搜索结果不可靠,AI搜索的渗透率仍处低位。AI搜索并非是知识源,而是从网络上抓取曾由人类发布的信息,并进行汇总以生成答案。但AI搜索难以分辨检索到的某个前排信息的正确性,导致结果不可靠,例如谷歌AIOverview错误引用了Reddit网友的调侃性言论,而给出了“添加胶水来防止奶酪从披萨上滑落”的错误答案。BrightEdge的数据显示,非SGE(非搜索生成体验,即非AI搜索)的Google搜索查询量显著增加,从2024年4月初的25%上升到4月底的65%,同时SGE结果在屏幕上所占的空间也从1200像素减少到1050像素以下,表明用户更喜欢传统搜索结果而不是AI生成的内容。据SearchEngineLand数据,AIOverview出现在搜索结果中的比例由5月份的80%下降到6月份的7%。
Perplexity和BingAI搜索的推出并未影响谷歌搜索的市占率,短期内AI搜索难以撼动搜索引擎。从AI搜索产品的发布时间节点来看,2022年12月Perplexity发布、2023年2月BingAI搜索发布、2024年5月谷歌Overview发布,均没有对谷歌搜索市占率产生大幅冲击,2024年6月谷歌搜索市占率91.1%,同比2022年11月仅下滑1.1%。我们认为当前的AI搜索存在结果不可靠(大模型幻觉问题)、用户粘性不强、成本高且变现率较低、无法建立用户反馈的循环机制等问题,短期内仍难以撼动传统搜索引擎。
AI搜索并未显著改变搜索者的行为模式,并未显著改变搜索量和点击量。谷歌五月在美国推出AIOverview(而非欧盟),因此我们对比五月美国和欧盟的谷歌搜索数据,可以观察AIOverview如何改变搜索者的行为模式。从单用户的搜索量看,5月美国和欧盟的移动端搜索量都环比大幅下滑、桌面端搜索量都环比小幅提升;从单次搜索的点击量来看,5月美国和欧盟的移动端点击量都环比小幅提升、桌面端点击量都环比持平。美国和欧盟的搜索数据走向一致,可以说明AIOverview并没有显著改变消费者的行为模式(搜索量和点击量)。
即使在AI搜索下,广告的商业模式也仍能跑通。搜索引擎的广告收入逻辑在于,通过竞价系统来排列搜索结果页上广告的展示顺序以及每次广告点击的费用。AI搜索下,“排序”的流程被省略,直接给出答案,投资者担忧广告商业模式不复存在。我们认为,AI搜索模式下,广告仍能跑通,主要投放点在于:(1)首页的热门词条推荐、热门新闻排行榜;(2)答案生成的先后顺序;(3)引用链接、延伸阅读等内容的排列顺序;(4)搜索结果页的图文和视频广告。从落地情况来看,国内的360AI搜索已初步试水商业化;百度的简单搜索APP的搜索结果依然直接提供购物链接;谷歌于5月在其AI搜索引擎AIOverviews中投放广告,用户在查询如何去除衣服上的褶皱时,搜索结果会展示Downy和Bounce等品牌的除皱产品的赞助轮播广告。我们认为,AI重塑搜索引擎生态后,“交互体验改善、搜索门槛降低→用户数提升、搜索量提升→广告曝光量和触达量提升→广告收入提升”的逻辑链依然成立。
3.3.微软:Copilot赋能Office
Copilot渗透带来的增量收入或高于Office365当前存量收入。我们测算Copilot渗透率提升为微软带来的增量收入。保守假设Office365用户数与CY24Q1持平(4亿),当前Copilot每月订阅价格30美元,我们测算不同的折价溢价率、不同渗透率下,Office365Copilot的年收入。中性假设下,Office365Copilot或带来648亿美元的增量收入,已高于FY2024Office365收入体量(约485亿美元)。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
(转自:未来智库)