文心X1的使用感受:无亮点,数学能力拉胯

社会人物评论 2025-04-07 17:34:01

日前,百度发布了旗下深度思大模型文心X1,具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等,而且增加了多模态能力和多工具调用,能理解和生成图片,还能调用工具生成代码、图表等丰富内容。笔者在第一时间试用了该模型,总的感觉是噱头不少,数学能力拉胯。

先说所谓的多工具调用,这一功能其实其它国产深度推理大模型也有,只是没有被当成噱头单独宣传。比如,许多国产推理大模型支持上传文档、图片等附件,并会对其中的内容进行解析,就是多工具调用。

如果用户上传的图片,这些推理大模型会自动调用图片识别工具对其进行识别、理解,如果上传的是DOC、PDF、Excel等文档,则会使用文档问答工具阅读文档。由于工具调用、内容识别、阅读等操作都是在后台完成的,用户只会很直观地看到其思考过程和回复结果,因此大多时候会忽略了它们的存在。

文心X1高明的地方是把同样的功能单独列出了,并做了宣传,让用户误以为它很新颖的,简直是独创。同时为了增加用户对该功能的印象,还特意设计成要用户启用才能使用。否则默认状态下,文心X1不支持任何图片、文档解读。

本来好端端地在其它推理大模型中默认就支持的功能,硬生生地被文心X1玩成了奢侈福利,这操作也是没谁了。这种化简为繁的设计,说得好听点,是脑子让门夹了,脑浆变形了,说得不好听点,就是脱裤子放屁,那个多此一举,纯粹给用户添麻烦。

然后是其数学能力。

推理大模型不同于传统语言的地方,就是它具备能类人思考的“长思维链”,逻辑性更强,可根据特定思维链条,进行自我探索和反思验证,提供更全面解答。推理大模型的这一能力,使得它的具有了更强的数学能力和代码能力。所以评判一款推理大模型能力如何,往往会从其数学能力上下手。

相比于文学创作、绘画这类没有具体评判标准,很大情况下完全靠个人喜好和个人审美观来衡量的东西,数学答案很直接,错了就是错了,当中没有理由可找。

而要评判文心X1的数学能力很简单,我们只需找几道题让其做一下就可以了。在做之前,有几句话需要说明。2023年国产语言大模型刚兴起时,像鸡兔同笼、韩信点兵等几道难度一般的初中题或许就能将其难倒了,但现在,如果我们还想用这类小儿科的题来为难大模型,那就有点太瞧不起人了,更何况我们要测试还是以数学能力超强著称的深度推理大模型。

所以在题目的选择是,建议选择高中或以上的数学题,题目的难度最好在中等及以上。

测试时,为公平起见,应该选择两款或以上的深度推理大模型陪考,因为如果只测文心X1自己,我们无法准确地判断它的表现仅仅是代表着它自己的水平,还是当前推理大模型共同的水平。

笔者这里之所以不做测试,直接告诉大家结果,是因为自文心X1发布之日起,笔者就不断做测试,已经做了十多次,每次测试三到五个题,早已对文心X1的数学水平心中有数。

此外,也是出于私心考虑。现在一看到评测,就有人说是测试者是“资本黑”,“你肯定是收人钱了,才去吹捧一个打压另一个”。大家自己做,结果更真实,感受也更深切,同时也可打消测试人做假的疑虑。

好在做次测试并不难,只要把刷抖音的时间挤出来一点就行。

文心X1的数学能力很拉胯!测试后,相信大家也会有如此感受!

而如果一款深度推理大模型在本应擅长的领域的表现都很拉胯,那么它在其他方面的真实能力也就可想而知了。

0 阅读:1