2025年,硅谷巨头要“超级智能”,不要AGI

虎嗅APP 2025-01-14 08:36:33

2025年,AI需要证明它是一种比以往技术革命中发挥作用更为强大的通用技术。

AI需要继续提升性能和降低成本,让更多的行业可以应用和创造价值。它也要求更广泛的基础设施的支撑,如能源电力系统。它还要求从公司到社会层面的生产关系和治理的调整和就绪。

最重要的是,AI要显示出它与以往技术的本质的不同,如果说以往的技术基本上是工具,而AI将是智能体,能使用甚至设计工具。

下一代大模型将会出现,它不再是沿着原先GPT的扩展轨迹的延伸,而将是其基本功能从预测下一个token转为较复杂的推理和决策,支持智能体的构建。

智能体在2025年的进展,乐观地看将于年底在一些企业,主要在科技巨头和软件公司中开始相当于人力熟练完成任务,并且开始进入物理场景完成真正有经济价值的任务。

智能体使用工具完成任务,决定了下一代大模型的意义,也成为杀手级应用的必要条件。

一、下一代基础模型

2025年,GPT-5或下一代基础模型将会推出,前沿AI公司将会寻求“新的扩展范式”。

推理模型迅速成为新的共识。

在中国,深度求索发布了DeepSeek-R1、阿里巴巴发布了Qwen-QwQ,智谱发布了Zero;在美国,谷歌发布了“迄今为止思考最周到的模型”Gemini2FlashThinking,逼着OpenAI拿出了最新版的o3。后者相比o1,实现了一次阶跃,在编程、数学、科学等一系列基准测试中成为学霸中的学霸,特别是在ARC-AGI的测试中,取得了大幅度的突破。

它们在推理时间上进行扩展,基于奖励机制,在测试阶段对思维链(CoTs)推理过程的反复强化学习,完成多步骤、长距离的任务。

下一代大模型,主要不会是参数数量级的增长,如从GPT-4的1.8万亿个参数增加到18万亿个参数(不过想想看,再增加一个数量级,大模型的参数量将相当于人类大脑神经网络的突触数量),在算力集群的部署、训练和推理成本的控制、电力供应及碳排放等方面,都会增加很大的压力。

下一代大模型的性价比与可持续性,将是一个重要考虑,有几点应该是可以确定的。

首先它仍然会追求智能涌现、通用性和知识迁移能力。在提升现有数据质量的基础之上,增加高质量的合成数据和多模态数据。它将增强推理能力和深度“长考”,将加强多模态整合,专用化和开源模型,支持智能体,即无缝连接各种API和外部工具,借助专业功能执行复杂任务,上述的集成有助于构建能够应对数字和物理领域多样化挑战的人工智能生态系统。

扩展定律没有完全失效。在预训练阶段,“暴力美学”越来越不经济,但对于不少头部企业来说,放慢开发速度的风险要大于过度投资。在后训练阶段,监督微调(SFT)、合成数据与强化学习(RL)仍在引领AI跨越LLM之谷。OpenAI还组合出强化微调(RFT)技术。“测试时”阶段的扩展已经成为了推理模型的首要选择。

扩展定律同样在多模态领域仍然生效,物理AI会是下一代基础模型的重要方向。Sora的诞生证明了这一点。在它演示之后的半年左右时间内,竞争对手推出了各种视频模型,包括谷歌、字节跳动等坐拥海量视频数据的互联网巨头。公开的、自然的、高质量的文本数据正在耗尽,而整合了图像、视频与音频的多模态大模型,将是对大型语言模型既有的世界知识的完善。

下一代大模型的另一种可能是多模态,至少会以MOE的形式深度整合。

中国厂商DeepSeek已经开始这么做了,它的DeepSeek-VL2是一个先进的大型混合专家(MoE)视觉-语言模型。OpenAI的o1完整版已经可以就图像进行慢思考,而谷歌的推理模型一开始就可以接受32ktoken以内的图片输入。未来,视觉与语言的融合将越来越有机,而不是仅仅将多维的世界的数据,塞进一维的token的序列里。

二、智能体是杀手级应用的必要条件

如果将大模型比作会做题的学生,智能体就是毕业生,必须学以致用。

行业对智能体的共识,贯穿2024年始终,2025年将达到高潮。几乎所有的科技巨头、初创企业与垂直行业都参与其中,就像当年开发APP一样。去年年初,吴恩达团队基于GPT-3.5开发的智能体的性能,甚至超过了GPT-4。

智能体就是用来完成原本应该由人完成的任务,它最本质特征就是会使用工具,首先从使用数字化的工具开始进入工作流,如PC,还有任务流,如手机。编程是智能体进展最快的领域;Claude的computeruse,以及完全体的Siri,可以初步实现像人类一样操作PC或手机。设计与使用工具的能力,是对智能体的基准评价。首先是数字空间,然后结合物理场景。

在互联网时代与移动互联网时代,杀手级应用依托于网络效应;在大模型时代,AI应用的爆发与杀手级应用的诞生,很大程度上将依托于智能体使用工具的熟练程度,还有设计新工具的能力。

智能体依赖于推理模型的进步。它可以通过增加检索和思维链中的反思减少大模型的“幻觉”,并且增加对“涌现”的可解释性,但根本上更强的基础模型是具备类似人类的慢思考与快思考结合的直觉判断能力。它依赖于更强大的检索增强生成,也需要更高效地从模仿学习到解耦到泛化再到涌现。

与去年将智能体嵌入工作流,拆解、分配任务并处理问题相比,基于下一代大模型的智能体要在开放式场景中发挥更多主动性。这就要求它能够利用的工具足够顺手,调用工具的方式足够合理。

尽管智能体将首先在数字化的工作流中得到快速渗透,但推理与多模态相结合,才能让AI与世界产生更有意义的交互。它是智能体对ChatGPT的人类与AI交互的自然延伸。纳德拉将ChatGPT的成功,归因于它是有状态(stateful)的工具。

有状态,意味着工具能够像人一样记住上下文,并进行动态调整,从而提供更智能和人性化的交互;而传统搜索尽管有搜索历史,但没有更深入的状态管理,是无状态的。

在这个意义上,智能体的“状态”将变得更为丰富,也更为重要,同时面临更大的工程挑战,尤其是多智能体协同。李飞飞在最近一篇智能体综述论文中表示,多模态、跨现实,将是通往通用人工智能的智能体的新范式。

三、重塑算力与应用市场格局

2025年,整个市场仍将处于算力饥渴的状态。微软决定在2025财年投入800亿美元的资本开支,xAI已经以疯狂的速度建立起十万张GPU卡的算力集群,把这场竞赛的巨头级门槛提升到千亿美元资本支出和十万卡算力集群级别。

大模型进入推理时代,反而强化了算力逻辑。

首先,AI作为通用技术,将随着推理模型与智能体技术的成熟,进入越来越多的行业。而且,如果AI推理解决有经济价值的问题,能提升效率并且创造出新的需求,那么随着单位算力成本下降,越便宜用得越多,这会推高算力的总需求量。

其次,推理模型的思维链,以及智能体感知环境与调度工具的中间过程,也将消耗大量终端用户看不到的算力。任务越复杂、越广泛,消耗的token将呈数量级增加。

最后,即使最近涌现出一批更轻量和更集约的模型,要保持同等的性能,往往需要在基础模型、合成数据等多个环节额外增加算力支出。

算力经济将会继续繁荣下去。越有价值的推理会消耗越大量的token,价格越贵。

红杉资本判断,行业将从按席位收费,转向按成果收费。但是,一旦推理模型进入市场竞争阶段,谁能提供更高性价比的服务,谁就占据上风。

因此,行业一方面将继续通过模型框架、软件算法的优化,提升对算力的利用效率,另一方面会继续寻找性价比最高的算力。AI芯片(GPU、ASIC、FPGA)及各种特色芯片,数据中心、数据传输,以及新型电力系统的投资将会非常巨大。

2025年,谷歌将发布第七代TPU,Meta发布第三代MTIA,亚马逊部署40万张第二代Trainium并发布其第三代。苹果也将努力补上其最后一块硅硬件:首款服务器AI芯片。

博通讲述的定制芯片(ASIC)的逻辑,听上去十分可信且诱人,是因为它符合大模型范式转移,它们将会证明其正式加入科技巨头的实力,还喊出了公司2027年面对最高900亿美元的ASIC芯片的可及市场(SAM)。

与博通相似,Marvell被视为另一位潜在赢家。

推理是一个巨大的增量市场。博通与Marvell等的兴起,并不意味着英伟达会从顶点走下坡路。

去年年中,黄仁勋就明确表态,已经着手AI芯片定制业务,今年更是计划加速从中国台湾挖走1000名工程师。定制芯片至少迭代三代才能成熟,英伟达为推理大模型打造的B300已经发布,总拥有成本更具性价比,算力比B200高50%,代价是200W额外功率,而算力集群对GPU的数量要求将在十万张的级别上膨胀,这将对数据中心的能源供应提出新的挑战。

计算就是能源的处理形式。数据中心的供电与散热仍将是2025年大模型前进道路上的绊脚石,数据中心正在加速跨入吉瓦级。

美国能源部最新报告将未来三年内全国数据中心用电量,从当前全国总用电量的4%上调至最高12%。

近期,Meta也加入了谷歌、亚马逊与微软的行列。拜登政府提出了将核能规模提高两倍的路线图,特朗普也支持核能,这将是中短期内最确定的产业方向之一。与此同时,分布式算力集群与整个计算架构的创新也将同步演进。

四、杀手级应用

推理模型和智能体,为真正出现AI杀手级应用奠定了基础。拥有全栈技术的巨头将主导智能体的竞争。

美国的科技巨头拥有最庞大的现金储备,能在算力与能源上“无限”扩展,持续获得领先优势,它们往往还拥有操作系统。

微软、谷歌与苹果拥有Windows、安卓与iOS,Meta还在参与竞争新兴的空间智能的操作系统。这决定了谁能用更好的模型做出更好的智能体。纳德拉就暗示过,微软某种程度上控制着调度的接口授权。

智能体竞争的一大焦点,是AI搜索。

微软的Bing、OpenAI的SearchGPT、独角兽Perplexity将继续挑战搜索霸主谷歌;垂直领域如法律、金融、教育、医疗等领域的大模型,都可以用作垂直AI搜索;企业AI搜索也将与智能体结合,当这些“有状态的”(stateful)搜索成为AI时代个人与企业的搜索习惯时,传统的搜索将被解构。当然,所有这些也都逃不过谷歌的掌心。也期待中国卷出更好的搜索。

智能体让AI应用产生差异性,以原生和赋能的方式,在既有平台和新的领域开始产生杀手级应用。如o1用于解决较高难度的问题,Sonnet3.5用来编程,GPT-4o用来写文章,GeminiFlash2.0解决长上下文问题。

许多模型/智能体具备了杀手级应用的潜质,如Sora,ProjectAstra,NotebookLM,Siri、ComputerUse等,还有多模态AI加持的智能眼镜、头显等。

有一个差别可以注意,美国的智能体之间有更好的连接及互操作生态,中国的应用仍然会更追求流量。

在AI杀手级应用方面,谷歌最具底气。

从芯片、云计算、操作系统,到软硬件的应用,谷歌能垂直提供端到端的所有技术,而且手中拥有9个10亿用户级的应用和5个数亿用户级的应用。

美国出现的差异化,将会在2025年显著影响中国的态势。中国也将会出现差异化,不过局面比美国显得混沌一些,在很多方面将不同于美国的差异化。

中国的大厂中,前沿大模型的竞争力仍然需要证明。六小虎的模型能力需要尽快从探索(exploration)向利用(exploitation)转变,智能体最起码要具备占据一个杀手级应用的生态位的实力,而无法实现这一点的,将会有一半左右被并购。与此同时,集约型和轻量化的模型、高性价比的智能体、丰富的应用场景,为中国AI各技术栈的补缺与创新带来了机会。

大模型的范式转移,更有利于中国企业以较高的性价比训练和微调模型。它也让中国企业的算力供应在国内和国际市场上有更多选择,产生了更多芯片创新的机会。

在技术上,中国企业会在算力约束下,开辟更多元更集约的技术路线。满足成本约束下的性能提升,才让衡量真实技术水平更具现实意义。

在推理与智能体主导的2025年,公司将在商业变现方面面临较大的压力。无论是大模型的API服务,还是智能体杀手级应用,都需要合适的商业模式。奥特曼称,即使是200美元/月的最高订阅价格,都无法让推理模型o1赚钱,更不用提目前让o3解答一个有难度的问题,需要用掉上千美元。

这需要大模型厂商在下一代大模型的架构、算法上继续优化。最直接的方法,当然是进一步提升其内在价值。

分析机构semianalysis估算,前沿模型的毛利率达到了70%,而一旦面临开源竞争,利润率就会降至20%以下。但这仅仅是调用API的收入,更大的价值空间,在于把应用建立在自有的模型与智能体基础之上。

智能体基础的商业模式,它可能是免费使用的广告,freemium中的订阅,API服务中的token用量,以及按照解决问题的价值来定价。

Onemorething

2025年,智能体开始加入劳动力大军吗?

纳德拉已经提出将减少人力支出成本,增加GPU的供应,黄仁勋已经提出售后业务增长所需要的劳动力,将主要由智能体充当;班尼奥夫(SaleForce创始人)提出了数字劳动力的概念,从人力资源部门又为AI的资本投入争取了预算。

当这一切发生的时候,对于奥特曼们来说,是否意味着AGI的实现?

在新年与中国新年之间,一个超级智能(superintelligence)的轮廓开始闪烁,它不仅出现在伊利亚的PPT里,也出现在奥特曼新年的反思博客和媒体访谈中。

DeepMind早就在AGI的分级中提到了强化学习加持的人工智能,在一些领域已经实现了远超人类的智能,如对弈和预测及设计蛋白质。而Anthropic的联合创始人阿莫迪使用了一个不同的术语:强大AI(powerfulAI),但它的要义与超级智能有相通之处,在21世纪,人类需要50年到100年才能完成的科学发现,将在5年到10之实现——我们正处于一个被压缩的21世纪。

他们似乎越来越不喜欢AGI这个概念了,其中有太多的短板短期内也无法补齐,似乎想尽快摆脱。

如果这样的话,2025年,奥特曼们可能会在一种较狭窄的定义和较初级的基准难度上声称实现AGI,进入一个相对收敛、但又更能解决复杂问题的超级智能的时代。

本文引用了未尽研究年底发布的《看DAO2025》相关内容。

0 阅读:1