文心4.5和深度思考X1，百度重回C位的“第一战”

作者 |由仪

编辑 |阿文

没有发布会，没有高管站台，2025年，3月16日，文心大模型发布两周年，百度以一种简单的方式上线了两款重磅大模型，国内首个万亿参数原生多模态大模型文心4.5和深度思考模型X1。

百度的心思无从知晓，行业却有一种共同的默契想法——这是百度试图用大模型硬实力重新证明自己的决心，也是其在AI牌桌上拿回筹码的复杂信号。

文心4.5，大模型更像人了

文心大模型4.5是百度自主研发的新一代原生多模态基础大模型，具备万亿级参数，实现文本、图像、音频、视频的“原生级融合”。这一技术直接对标OpenAI的GPT-4o和谷歌Gemini，试图在AGI的赛道上卡位。

李彦宏表示，当前，人工智能大模型还处于发展的早期，技术还在以“周”甚至以“天”的速度快速迭代。

原生多模态大模型，打破之前先训练单模态模型再拼接的方式，通过统一架构实现文本、图像、音频、视频等多模态数据的‌原生级融合，实现对复杂世界的统一理解，这是迈向通用人工智能（AGI）的重要一步。

得益于更大的参数和多模态联合优化，文心4.5具备更精进的语言能力，理解、生成、逻辑、记忆能力全面提升，去幻觉、逻辑推理、代码能力显著提升。

大模型产业不再迷信“越大越好”，百度也没有单纯堆算力，而是在算法层面多有创新。FlashMask 动态注意力掩码，可加速大模型灵活注意力掩码计算，有效提升长序列建模能力和训练效率，优化长文处理能力和多轮交互表现。

多模态异构专家扩展技术，能够根据模态特点构建模态异构专家，结合自适应模态感知损失函数，解决不同模态梯度不均衡问题，提升多模态融合能力。

以及时空维度表征压缩技术、基于知识点的大规模数据构建技术、基于自反馈的Post-training等技术，大幅提升模型的效果。

AI Agent战场，X1的深度思考能走多远？

如果说文心4.5是基础大模型底座，X1则是百度对AI Agent的押注。

深度思考不是DeepSeek的独有，文心X1由百度2023年10月发布的慢思考技术发展而来，具备更强的理解、规划、反思、进化能力，并支持多模态。

X1同样采用了多种优化方法，递进式强化学习训练方法。创新性地应用递进式强化学习方法，在创作、搜索、工具调用、推理等场景全面提升模型的综合应用能力。

再如基于思维链和行动链的端到端训练，针对深度搜索、工具调用等场景，根据结果反馈进行端到端的模型训练，显著提升训练效果；以及多元统一的奖励系统，百度建立了统一的奖励系统，融合多种类型的奖励机制，为模型训练提供更加鲁棒的反馈。

多工具调用是文心X1的特色之一。目前，X1已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询、词云生成等多款工具。

这也侧面说明百度加入了Agent生态之战，X1支持十余种工具，试图用“一站式服务”取代单一功能Agent，这种“大模型吞并小Agent”的逻辑，直接威胁到Manus等创业公司的生存空间。

毕竟，若大模型能原生替代，谁还需要第三方插件。不过，X1的野心也暴露了百度的一个问题，除了搜索这个PC互联网时代的流量入口，百度缺乏新的超级入口，Agent要主动向场景渗透，现在恰恰缺少第一批试验的场景。

综合来看，文心X1 是能力更全面的深度思考模型，兼备准确、创意和文采，在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。

百度不语，只是一味发模型

在DeepSeek到来之后，很多人认为百度落后了，这种观点可能把大模型产业想得过于简单，也低估了百度手上的筹码。

其实在DeepSeek爆发之前，李彦宏在内部总监会上就给出了25年两大AI投入方向：

一是坚持投入训练下一代基础模型。对于百度来说，2025是大模型年，将于2025年初发布新版文心大模型，下半年发布文心大模型的5.0版本。

二是加大AI应用商业化实践。对于全行业来说，2025也是AI应用的爆发年，To B和To C场景的规模化应用将加速落地。同时也是商业化的淘汰年，商业化能力是AI应用成功关键，没有商业化能力的创业公司和产品将被淘汰。

如今看来，李彦宏的预判正在应验，关键是百度能否将战略眼光转化实实在在的成果，这就要看百度的技术和产品能力。

从技术储备上看，近十年累计研发投入超过1800亿元，百度以大模型为核心的人工智能专利申请量、授权量都是国内第一，全球领先；深度学习相关的专利申请量全球第一。

截至2023年12月，百度全球人工智能专利申请超过2.5万件，中国人工智能专利申请量近1.9万件，中国人工智能专利申请量突破8000件，国内人工智能专利授权率行业领先。在当下的IT技术栈四层模式中，百度在框架层、模型层、应用层三层专利储备均为国内第一。

人工智能时代的技术栈分为四层：芯片层、框架层、模型层和应用层。百度从芯片昆仑芯，到飞桨深度学习框架，再到文心预训练大模型，各个层面都有关键自研技术。每一层之间都有很多反馈，通过不断获得反馈，实现端到端优化，大幅提升效率。

芯片层有昆仑芯的万卡集群，百度智能云已经成功点亮昆仑芯三代万卡集群，成为国内首个正式点亮的自研万卡集群，之后将进一步点亮3万卡集群；成熟的万卡集群管理和部署能力，进一步降低模型训练成本：百舸AI异构计算平台4.0已具备成熟的10万卡集群部署和管理能力，且在万卡集群上实现了99.5%以上的有效训练时长，能够将两种芯片混合训练大模型的效率折损控制在5%以内，达到业界最领先的水平。

框架层有中国开发者使用最广的飞桨开源框架；截至 2024年11月，飞桨文心开发者数量已达1808万，服务了43万家企业，创建了101万个模型。

模型层有不断迭代的文心大模型：丰富的文心大模型矩阵；优秀的MaaS平台，提供丰富且极具性价比的模型资源和开发工具：百度智能云千帆大模型平台已接入国内外上百个主流大模型。目前，千帆已经帮助客户精调了3.3万个模型、开发了77万个企业应用。

应用层有最激进进行AI重构的百度搜索、近亿AI用户的百度文库等等。

或许，正如李彦宏所言：“创新不能被计划，你不知道创新何时到来，你所能做的就是营造一个有利于创新的环境。”

但至少，百度这次选择用代码而非PPT说话——这大概是一家技术公司最体面的倔强了。