文心X1的使用感受：无亮点，数学能力拉胯

日前，百度发布了旗下深度思大模型文心X1，具备“长思维链”，擅长中文知识问答、文学创作、逻辑推理等，而且增加了多模态能力和多工具调用，能理解和生成图片，还能调用工具生成代码、图表等丰富内容。笔者在第一时间试用了该模型，总的感觉是噱头不少，数学能力拉胯。

先说所谓的多工具调用，这一功能其实其它国产深度推理大模型也有，只是没有被当成噱头单独宣传。比如，许多国产推理大模型支持上传文档、图片等附件，并会对其中的内容进行解析，就是多工具调用。

如果用户上传的图片，这些推理大模型会自动调用图片识别工具对其进行识别、理解，如果上传的是DOC、PDF、Excel等文档，则会使用文档问答工具阅读文档。由于工具调用、内容识别、阅读等操作都是在后台完成的，用户只会很直观地看到其思考过程和回复结果，因此大多时候会忽略了它们的存在。

文心X1高明的地方是把同样的功能单独列出了，并做了宣传，让用户误以为它很新颖的，简直是独创。同时为了增加用户对该功能的印象，还特意设计成要用户启用才能使用。否则默认状态下，文心X1不支持任何图片、文档解读。

本来好端端地在其它推理大模型中默认就支持的功能，硬生生地被文心X1玩成了奢侈福利，这操作也是没谁了。这种化简为繁的设计，说得好听点，是脑子让门夹了，脑浆变形了，说得不好听点，就是脱裤子放屁，那个多此一举，纯粹给用户添麻烦。

然后是其数学能力。

推理大模型不同于传统语言的地方，就是它具备能类人思考的“长思维链”，逻辑性更强，可根据特定思维链条，进行自我探索和反思验证，提供更全面解答。推理大模型的这一能力，使得它的具有了更强的数学能力和代码能力。所以评判一款推理大模型能力如何，往往会从其数学能力上下手。

相比于文学创作、绘画这类没有具体评判标准，很大情况下完全靠个人喜好和个人审美观来衡量的东西，数学答案很直接，错了就是错了，当中没有理由可找。

而要评判文心X1的数学能力很简单，我们只需找几道题让其做一下就可以了。在做之前，有几句话需要说明。2023年国产语言大模型刚兴起时，像鸡兔同笼、韩信点兵等几道难度一般的初中题或许就能将其难倒了，但现在，如果我们还想用这类小儿科的题来为难大模型，那就有点太瞧不起人了，更何况我们要测试还是以数学能力超强著称的深度推理大模型。

所以在题目的选择是，建议选择高中或以上的数学题，题目的难度最好在中等及以上。

测试时，为公平起见，应该选择两款或以上的深度推理大模型陪考，因为如果只测文心X1自己，我们无法准确地判断它的表现仅仅是代表着它自己的水平，还是当前推理大模型共同的水平。

笔者这里之所以不做测试，直接告诉大家结果，是因为自文心X1发布之日起，笔者就不断做测试，已经做了十多次，每次测试三到五个题，早已对文心X1的数学水平心中有数。

此外，也是出于私心考虑。现在一看到评测，就有人说是测试者是“资本黑”，“你肯定是收人钱了，才去吹捧一个打压另一个”。大家自己做，结果更真实，感受也更深切，同时也可打消测试人做假的疑虑。

好在做次测试并不难，只要把刷抖音的时间挤出来一点就行。

文心X１的数学能力很拉胯！测试后，相信大家也会有如此感受！

而如果一款深度推理大模型在本应擅长的领域的表现都很拉胯，那么它在其他方面的真实能力也就可想而知了。