作者 |由仪
编辑 |阿文
没有发布会,没有高管站台,2025年,3月16日,文心大模型发布两周年,百度以一种简单的方式上线了两款重磅大模型,国内首个万亿参数原生多模态大模型文心4.5和深度思考模型X1。
百度的心思无从知晓,行业却有一种共同的默契想法——这是百度试图用大模型硬实力重新证明自己的决心,也是其在AI牌桌上拿回筹码的复杂信号。
文心4.5,大模型更像人了文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,具备万亿级参数,实现文本、图像、音频、视频的“原生级融合”。这一技术直接对标OpenAI的GPT-4o和谷歌Gemini,试图在AGI的赛道上卡位。
李彦宏表示,当前,人工智能大模型还处于发展的早期,技术还在以“周”甚至以“天”的速度快速迭代。
原生多模态大模型,打破之前先训练单模态模型再拼接的方式,通过统一架构实现文本、图像、音频、视频等多模态数据的原生级融合,实现对复杂世界的统一理解,这是迈向通用人工智能(AGI)的重要一步。
得益于更大的参数和多模态联合优化,文心4.5具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。
大模型产业不再迷信“越大越好”,百度也没有单纯堆算力,而是在算法层面多有创新。FlashMask 动态注意力掩码,可加速大模型灵活注意力掩码计算,有效提升长序列建模能力和训练效率,优化长文处理能力和多轮交互表现。
多模态异构专家扩展技术,能够根据模态特点构建模态异构专家,结合自适应模态感知损失函数,解决不同模态梯度不均衡问题,提升多模态融合能力。
以及时空维度表征压缩技术、基于知识点的大规模数据构建技术、基于自反馈的Post-training等技术,大幅提升模型的效果。
AI Agent战场,X1的深度思考能走多远?如果说文心4.5是基础大模型底座,X1则是百度对AI Agent的押注。
深度思考不是DeepSeek的独有,文心X1由百度2023年10月发布的慢思考技术发展而来,具备更强的理解、规划、反思、进化能力,并支持多模态。
X1同样采用了多种优化方法,递进式强化学习训练方法。创新性地应用递进式强化学习方法,在创作、搜索、工具调用、推理等场景全面提升模型的综合应用能力。
再如基于思维链和行动链的端到端训练,针对深度搜索、工具调用等场景,根据结果反馈进行端到端的模型训练,显著提升训练效果;以及多元统一的奖励系统,百度建立了统一的奖励系统,融合多种类型的奖励机制,为模型训练提供更加鲁棒的反馈。
多工具调用是文心X1的特色之一。目前,X1已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询、词云生成等多款工具。
这也侧面说明百度加入了Agent生态之战,X1支持十余种工具,试图用“一站式服务”取代单一功能Agent,这种“大模型吞并小Agent”的逻辑,直接威胁到Manus等创业公司的生存空间。
毕竟,若大模型能原生替代,谁还需要第三方插件。不过,X1的野心也暴露了百度的一个问题,除了搜索这个PC互联网时代的流量入口,百度缺乏新的超级入口,Agent要主动向场景渗透,现在恰恰缺少第一批试验的场景。
综合来看,文心X1 是能力更全面的深度思考模型,兼备准确、创意和文采,在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。
百度不语,只是一味发模型在DeepSeek到来之后,很多人认为百度落后了,这种观点可能把大模型产业想得过于简单,也低估了百度手上的筹码。
其实在DeepSeek爆发之前,李彦宏在内部总监会上就给出了25年两大AI投入方向:
一是坚持投入训练下一代基础模型。对于百度来说,2025是大模型年,将于2025年初发布新版文心大模型,下半年发布文心大模型的5.0版本。
二是加大AI应用商业化实践。对于全行业来说,2025也是AI应用的爆发年,To B和To C场景的规模化应用将加速落地。同时也是商业化的淘汰年,商业化能力是AI应用成功关键,没有商业化能力的创业公司和产品将被淘汰。
如今看来,李彦宏的预判正在应验,关键是百度能否将战略眼光转化实实在在的成果,这就要看百度的技术和产品能力。
从技术储备上看,近十年累计研发投入超过1800亿元,百度以大模型为核心的人工智能专利申请量、授权量都是国内第一,全球领先;深度学习相关的专利申请量全球第一。
截至2023年12月,百度全球人工智能专利申请超过2.5万件,中国人工智能专利申请量近1.9万件,中国人工智能专利申请量突破8000件,国内人工智能专利授权率行业领先。在当下的IT技术栈四层模式中,百度在框架层、模型层、应用层三层专利储备均为国内第一。
人工智能时代的技术栈分为四层:芯片层、框架层、模型层和应用层。百度从芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,各个层面都有关键自研技术。每一层之间都有很多反馈,通过不断获得反馈,实现端到端优化,大幅提升效率。
芯片层有昆仑芯的万卡集群,百度智能云已经成功点亮昆仑芯三代万卡集群,成为国内首个正式点亮的自研万卡集群,之后将进一步点亮3万卡集群;成熟的万卡集群管理和部署能力,进一步降低模型训练成本:百舸AI异构计算平台4.0已具备成熟的10万卡集群部署和管理能力,且在万卡集群上实现了99.5%以上的有效训练时长,能够将两种芯片混合训练大模型的效率折损控制在5%以内,达到业界最领先的水平。
框架层有中国开发者使用最广的飞桨开源框架;截至 2024年11月,飞桨文心开发者数量已达1808万,服务了43万家企业,创建了101万个模型。
模型层有不断迭代的文心大模型:丰富的文心大模型矩阵;优秀的MaaS平台,提供丰富且极具性价比的模型资源和开发工具:百度智能云千帆大模型平台已接入国内外上百个主流大模型。目前,千帆已经帮助客户精调了3.3万个模型、开发了77万个企业应用。
应用层有最激进进行AI重构的百度搜索、近亿AI用户的百度文库等等。
或许,正如李彦宏所言:“创新不能被计划,你不知道创新何时到来,你所能做的就是营造一个有利于创新的环境。”
但至少,百度这次选择用代码而非PPT说话——这大概是一家技术公司最体面的倔强了。