全面评测文心X1/4.5Turbo!思维链升级,推理白菜价,多模态被玩疯了

智东西 2025-04-25 20:55:51

智东西

作者 | 陈骏达

编辑 | 漠影

智东西4月25日报道,今天上午,在Create 2025百度AI开发者大会上,百度正式发布文心大模型4.5 Turbo与文心大模型X1 Turbo。这两款模型的多模态能力、推理能力均有明显提升,更是在性价比上实现了新的突破——文心X1 Turbo输入价格为1元/百万tokens,输出价格为4元/百万tokens,均为DeepSeek-R1的25%。

文心4.5 Turbo是一款源自文心4.5的多模态大模型,并在性能与成本上更具优势。文心X1 Turbo则由上月发布的文心X1升级而来,具备更先进的思维链,问答、创作、逻辑推理、工具调用和多模态能力进一步增强。

在数学、写作、编程、逻辑等领域的多项基准测试中,文心X1 Turbo总体优于DeepSeek-R1、V3最新版。

文心4.5 Turbo的多模态能力与GPT 4.1持平、优于GPT 4o;文本能力与DeepSeek V3最新版持平,优于GPT 4.5、GPT 4.1、GPT 4o。

文心4.5 Turbo、文心X1 Turbo已经文心一言上线,用户仅需点击页面左上角选择模型便可免费体验其能力。这两款模型也已正式上线百度智能云千帆大模型平台,企业用户和开发者登录即可调用API。

新模型发布之际,智东西也在第一时间进行了全面测评。这两款模型不仅能胜任研报、公文写作,也能解答编程、医学、贸易方面的专业问题,并具备强大多模态能力,因而解锁了拍照出菜谱、识地点、生成产品图等多样玩法。

近一个月,百度已密集上4款新模型,文心大模型的能力边界,正迎来持续拓展,堪称实力卷王。

一、既能写研报也会解难题,思维链更有条理了

推理模型已成为各家大模型厂商角力的重要方向,本次,文心X1 Turbo的思维链迎来升级,具备了边思考边调用工具的能力。

在回答一则医学研究设计问题时,文心X1 Turbo先是将这一任务拆解为清晰的四个步骤,然后根据其自行制定的计划调用工具、整理信息。其思维链重点明确,条理清晰,而非连续的大段文字,用户可更方便地阅读大模型的思考过程。

智东西还向一位外科医生求证了文心X1 Turbo生成结果的专业性,得到的评价如下:

对于新近发生的热点与时事,文心X1 Turbo展现出不错的理解与分析能力。当被问及关税对我国当前经济的影响时,它给出的数据详实、分析也较为全面,覆盖贸易、产业、宏观经济三方面。

文心X1 Turbo的工具调用能力使其通用性、可玩性进一步提升。随手选取一张菜品网图,发给文心X1 Turbo后,它运用多模态理解、代码解释器等工具,打造了一份PDF的制作工序文件。

将一张零件的三视图发送给文心X1 Turbo,它能精确地识别图中的零件尺寸、结构,并使用python计算零件的具体体积,可谓是超强生产力工具了。

文本创作一直是文心大模型的强项。收到一份近2万字的工作报告后,文心X1 Turbo利用⽂档问答工具,结合模型自身能力,迅速输出了一篇2000字的心得体会。引用内容准确,分析方向也恰到好处,符合公文的文风文体。

与文心X1 Turbo同时发布的文心4.5 Turbo,则在多模态理解能力上展现出不俗的实力。

将聊天群里的高糊网络梗图甩给文心4.5 Turbo,它既识别出图中的文字和其他元素,还能将这些元素整合理解,给出准确又兼具趣味性的解读。

将网友分享的旅游景点找发给文心4.5 Turbo,它马上就报出了图中景点的“坐标”,还给出了相关背景信息,这回再也不用追着博主求分享机位了。

文心4.5 Turbo不仅具有图片理解能力,还能听懂、看懂音视频内容。例如,文心4.5 Turbo可以根据行车记录仪的画面,给出车祸的责任划分建议,其对画面的描述符合事实,并运用了交规知识。

文心4.5 Turbo的多模态能力还可与生图能力结合。向其发送一张产品海报后,文心4.5 Turbo按照用户需求将其改为短款袜子,生成了多张不同设计、不同风格的宣传图。在电商场景中,这能帮助中小商家们节省许多精力与成本。

逻辑推理方面,文心4.5 Turbo虽并未使用思维链,但其生成结果也较有说服力。为反驳“缸中之脑”这一实验,文心4.5 Turbo给出了5个反驳理由,正反方观点都得到呈现,反驳简洁有力。

在开发场景,文心4.5 Turbo能以极快的速度打造出视觉特效、网页游戏等实用程序。设计下方这一交互特效,文心4.5 Turbo用时20秒。

总体来看,文心4.5 Turbo、文心X1 Turbo在深度思考、问答、创作、逻辑推理、工具调用和多模态能力均迎来升级的,这背后的技术实现路径与升级逻辑,究竟是什么?

二、模型学习效率提高近2倍,多模态理解效果提升超过30%

从模型类型上来看,文心4.5 Turbo、文心X1 Turbo都是多模态大模型,实现了文本、图像和视频的混合训练。

对许多用户,尤其是企业用户而言,同时处理文本、图像、视频等多模态数据已近乎成为刚需。在今天的百度Create开发者大会上,百度创始人李彦宏也发表了类似观点:“多模态将成为未来基础模型的标配,纯文本模型的市场会越变越小,多模态模型的市场会越来越大。”

针对不同模态数据在结构、规模、知识密度上的差异,文心4.5和4.5 Turbo在训练过程中通过多模态异构专家建模、自适应分辨率视觉编码、时空重排列的三维旋转位置编码、自适应模态感知损失计算等技术,大幅提升跨模态学习效率和多模态融合效果,学习效率提高近2倍,多模态理解效果提升超过30%。

后训练方面,这两款模型采用自反馈增强的技术框架,基于大模型自身的生成和评估反馈能力,实现了“训练-生成-反馈-增强”的模型迭代闭环,不仅解决了大模型对齐过程中,数据生产难度大、成本高、速度慢等问题,还显著降低了模型幻觉,模型理解和处理复杂任务的能力大幅提升。

为提升模型的理解、生成、逻辑和记忆等能力,文心4.5和4.5 Turbo还使用了融合偏好学习的强化学习技术,通过多元统一奖励机制,提升了对结果质量判别的准确率,通过离线偏好学习和在线强化学习统一优化,进一步提升了数据利用效率和训练稳定性,并增强了模型对高质量结果的感知。

在上方案例中,我们已直观体会到文心X1 Turbo思维链升级后增强的问题解决能力。如今,这款模型已突破了仅基于思维链优化的范式,在思考路径中结合工具调用,构建了融合思考和行动的复合思维链。同时,结合多元统一的奖励机制,文心X1 Turbo还实现了长距离思考和行动链的端到端优化,大幅提升了跨领域的问题解决能力。

百度还打造了“数据挖掘与合成-数据分析与评估-模型能力反馈”的数据建设闭环,为模型训练源源不断地生产知识密度高、类型多样、领域覆盖广的大规模数据,同时,数据建设流程具备良好的可扩展性,能够轻松迁移到全新的数据类型,实现快速、高效的数据生产。

针对不同模态数据割裂、跨模态语义关联难度大等问题,他们还研制了融合语义对齐的多模态平行数据构建、融合视觉知识的描述生成等技术,大幅提升不同模态数据的对齐精度和深度语义关联,增强多模态理解能力。

文心X1 Turbo在多个领域的测试中取得了显著成绩,包括中文简单问答(Chinese SimpleQA)、写作评估(WritingBench)、数学(AIME2024、Math-500、DROP)、逻辑推理(Zebra Logic)、中文语义理解(CLUEWSC)、编程能力(Livecodebench)以及指令遵循评估(IFEval和BFCL)。

这些测试涵盖了从基础问答到复杂逻辑推理的广泛领域,展示了文心X1 Turbo在多样化任务中的综合能力。文心X1 Turbo在上述测试中的平均分高于DeepSeek-R1、DeepSeek-V3最新版,与OpenAI o1基本持平。

文心4.5 Turbo的多项基准测试成绩显著优于GPT-4o,平均分达到81.90,超过GPT-4.5的80.04,并领先DeepSeek-V3最新版。

三、 文心飞桨联合优化,拉爆AI训推性价比

百度今天发布的两款新模型还在性价比上展现出明显优势。文心X1 Turbo输入、输出价格均为DeepSeek-R1的25%。文心4.5 Turbo每百万token的输入价格仅为0.8元,输出价格3.2元,仅为DeepSeek-V3的40%。

文心大模型的能力拓展和效率提升,以及数字人、代码智能体等技术创新,离不开飞桨深度学习框架与文心模型的深度协同优化。这种优化涵盖框架-模型、框架-算力,既提升训练效果,又优化推理效率,为文心大模型训推成本的下降提供支撑。

训练阶段,多模态统一掩码注意力加速技术显著降低了跨模态计算的掩码构建开销,训练性能大幅提升。推理时,百度引入多模态流式分块预填充机制,减少首Token延迟,降低显存峰值,提升推理批次大小和吞吐性能。

相比前代,文心4.5 Turbo训练吞吐提升5.4倍,推理吞吐提升8倍,极大降低大模型应用成本。

作为AI技术底座,飞桨框架3.0在自动并行、神经网络编译器、高阶自动微分等方面实现突破,帮助开发者高效构建大模型应用。

飞桨框架3.0动静统一的自动并行技术,让大模型分布式训练代码量减少80%,开发者可以像写单机代码一样写分布式代码。训推一体技术则将强化学习训练速度提升114%,加速模型迭代。科学计算场景下,飞桨框架3.0微分方程求解速度较PyTorch快115%。其神经网络编译器端到端训练速度提升27%,计算效率优化成果显著。

飞桨还支持国内外60+芯片架构,并积极推动软硬协同优化,这点对有国产化算力需求的国内企业而言十分友好。

大会上,百度还向外界分享了飞桨文心开发者生态的最新数据,目前,飞桨文心拥有超2185万开发者,服务超过67万家企业,创建的模型达到110万。

结语:文心大模型密集迭代,多模态成重要方向

文心大模型的演进历程展现了百度在AI领域的持续创新。2019年3月,文心大模型1.0正式发布;2023年3月,文心一言的诞生融合了知识增强、检索增强和对话增强等核心技术,实现了语言理解的飞跃;同年10月,文心4.0版本推出,首次引入慢思考智能体;2025年,文心4.5版本进一步升级为多模态模型,深度思考模型文心X1也同时发布;短短1个多月后,文心4.5 Turbo和文心X1 Turbo的亮相,再次提升了模型效率与能力。

从知识融合、逻辑推理到慢思考、多模态,文心大模型正不断突破技术边界,实现了效果与效率的双重提升。如今,文心大模型已构建起从基础模型到应用工具的完整生态体系。

旗舰模型如文心4.5和X1在多模态与深度思考领域表现卓越,而文生图模型、场景模型和轻量模型则满足了不同场景的需求。文心一言和智能体技术进一步拓展了交互能力,同时,百度还为开发者提供了数据生产、后训练、推理部署等全流程工具,加速行业创新。

这一布局不仅体现了文心大模型的技术全面性,更展现了其灵活、高效的生态支撑力。进入2025年,百度的模型更新不断提速,效果更好、成本更低。而在模型之上,就是Create大会主题后半句“应用的天下”这盘更大的棋。

0 阅读:0
智东西

智东西

智能产业第一媒体!聚焦智能变革,服务产业升级。