百小应评测:搜狗创始人王者归来,还是英雄末路?

测试不缺高科技 2024-05-24 11:14:10

5月22日,百川智能发布最新一代基座大模型Baichuan 4,并推出成立之后的首款AI助手“百小应”。据公司披露,Baichuan 4相较Baichuan 3 在各项能力上均有提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%。

但其真实表现到底如何?请看我们的评测!

没有智能体,没有虚拟人(数字人),不支持绘制图片……相比于很多国产大模型的“功能丰富”,百小应的功能相对单一,只有简单的对话和基于对话的搜索。尽管支持联网搜索和对上传图片文件进行解析,但在百模大战的今天,实在没什么特别的。

既然没有独创的功能,那么,实际战力如何?让我们一起见证下。

第一轮:AI搜索能力大战。

之所以第一轮选搜索,是因为搜索是百川创始人王小川曾经的立身之本(搜狗),也是最有可能取得成绩的地方。同时,也是百小川这次的主要宣传口号之一“”

参赛选手:百小应(百川)、天工AI(昆仑万维)、360AI搜索(360)、秘塔AI

出题:神仙姐姐介绍以及她的主要作品

这里故意使用“神仙姐姐”,而不是刘亦菲,就是为了试验下AI是不是真的明白问题是什么。

以下是百小应的回答:

识别出来了“神仙姐姐”是“刘亦菲”,回答的中规中矩,但只搜到的3个结果,有点少。相关的介绍也很简单。

整体看,勉强及格,但不是很满意。

再让我们看看其他家的实力如何,这不看不知道,一看吓一跳。

以下是天工AI的回答:

以下是秘塔AI的回答:

以下是360AI搜索的回答:

对比下其他三家的AI搜索能力,几乎毫无疑问的,百小应倒数第一,而且差距很大。

不过别灰心,再看看其他方面。

第二轮:多模态-图片解读能力

第二轮选多模态-图片解读能力,是因为这也是百小川重点宣传的点之一。这里没有选绘图能力,尽管这在很多大模型中已经很普遍,但是和智能体一样,百小川暂不支持,就不用比了。

我们就算百小川拥有的“图片解读能力”好了。

参赛选手:百小川、通义千问(阿里)、腾讯混元助手(腾讯)、文心一言3.5(百度)

出题2:对图片的初步解读

我们随便选一张用AI生成的图片,让各位选手进行解读。题目:描述一下这张画。

以下是百小应的回答:

以下是通义千问的回答:

以下是腾讯混元助手的回答:

以下是文心一言3.5的回答:

可以看到,这一轮中,文心一言表现最好,百小应和通义千问并列第二,腾讯混元助手最差。

第三轮:附件解读

参赛选手:百小应、通义千问、文心一言、kimi(月之暗面)

这一轮,我们把出局的腾讯混元助手换成“kimi”。先看看各位选手支持的附件类型如何。

可以看到,从支持的附件格式来看,百小应排名倒数第二,不如通义千问和kimi,但胜过文心一言3.5。

再看看实际的解读能力如何:

为了公平起见,我们找一个四大选手都支持的格式的文档,限制在10M以内的pdf文件。

小编随便从网上下载了一份三星手机的使用手册,大小5.52兆。看下几位选中的表现如何:

问题:这份附件是干什么用的?有啥特点?主要说了些什么?

下面是百小应的回答:

下面是通义千问的回答:

下面是文心一言的回答:

下面是kimi的回答:

可以看到,通义千问的表现最好,回答的最丰富,而且还猜出了手机属于Galaxy Note系列的一个型号。kimi次之,百小应再次之。文心一言则是答非所问,根本没有读出文档内容。

在本轮比赛中,百小应排名倒数第二(第三名)。

以上三轮比赛中,我们在百小应主推的卖点功能上,各选了另外三家提供服务的竞品进行比较,结果发现,百小应排名都是倒数,仅仅勉强维持在能用的程度,都不出彩。

如果再加上竞品在其他方面的服务能力,以及推出的时间,很容易得出结论,百小应确实缺乏竞争力。

百小应的毫无亮点,是否意味着,曾经的搜狗的辉煌,是否真的一去不复返了?

0 阅读:0

测试不缺高科技

简介:感谢大家的关注