5月22日,百川智能发布最新一代基座大模型Baichuan 4,并推出成立之后的首款AI助手“百小应”。据公司披露,Baichuan 4相较Baichuan 3 在各项能力上均有提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%。
但其真实表现到底如何?请看我们的评测!
没有智能体,没有虚拟人(数字人),不支持绘制图片……相比于很多国产大模型的“功能丰富”,百小应的功能相对单一,只有简单的对话和基于对话的搜索。尽管支持联网搜索和对上传图片文件进行解析,但在百模大战的今天,实在没什么特别的。
既然没有独创的功能,那么,实际战力如何?让我们一起见证下。
第一轮:AI搜索能力大战。
之所以第一轮选搜索,是因为搜索是百川创始人王小川曾经的立身之本(搜狗),也是最有可能取得成绩的地方。同时,也是百小川这次的主要宣传口号之一“”
参赛选手:百小应(百川)、天工AI(昆仑万维)、360AI搜索(360)、秘塔AI
出题:神仙姐姐介绍以及她的主要作品
这里故意使用“神仙姐姐”,而不是刘亦菲,就是为了试验下AI是不是真的明白问题是什么。
以下是百小应的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/6efe5c6a5de88e34bae110f9c1f307d6.jpg)
识别出来了“神仙姐姐”是“刘亦菲”,回答的中规中矩,但只搜到的3个结果,有点少。相关的介绍也很简单。
整体看,勉强及格,但不是很满意。
再让我们看看其他家的实力如何,这不看不知道,一看吓一跳。
以下是天工AI的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/17c68478448b522dfde75e015e425fe1.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/488f2f8fc747ca504ab2118bb7d07736.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/94797d0137c36c3a752936addcb19dd7.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/d250d3f99b6d5f23d30ca9cb976f91b2.jpg)
以下是秘塔AI的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/0cc7e3846d622e6dc9c4e42625ed322b.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/9f885edd1d2be6dd987115c6d565dad1.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/d2ab330ab76cabd44431725962b617f5.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/f5f24eaf2f6f1bb87a97bfea66ca2f33.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/6e78cb273705599064c68b5028e4c48a.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/ec68f760a6b49805a4773f1c144a403c.jpg)
以下是360AI搜索的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/47061729c08c46b1e08167edf4d9f45f.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/20cc0555774b4e161b259e43c4f4bc33.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/f5f2843caef319b4be0d32709f12862b.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/06efa4c6fbb749460c19dcd9694846f4.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/aa21c576c70817cf27484de59d769e24.jpg)
对比下其他三家的AI搜索能力,几乎毫无疑问的,百小应倒数第一,而且差距很大。
不过别灰心,再看看其他方面。
第二轮:多模态-图片解读能力
第二轮选多模态-图片解读能力,是因为这也是百小川重点宣传的点之一。这里没有选绘图能力,尽管这在很多大模型中已经很普遍,但是和智能体一样,百小川暂不支持,就不用比了。
我们就算百小川拥有的“图片解读能力”好了。
参赛选手:百小川、通义千问(阿里)、腾讯混元助手(腾讯)、文心一言3.5(百度)
出题2:对图片的初步解读
我们随便选一张用AI生成的图片,让各位选手进行解读。题目:描述一下这张画。
![](http://image.uc.cn/s/wemedia/s/upload/2024/75716ec22c42a003df8a3f69358a1774.jpg)
以下是百小应的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/7f6d6ccc6a7c63637c18957821ffd09b.jpg)
以下是通义千问的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/995e37028a02a81a0793ecdcd29fc2a7.jpg)
以下是腾讯混元助手的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/d72119f8db00fd7fd1ca292562806b81.jpg)
以下是文心一言3.5的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/e2caf73d6398286b781876f2fd717601.jpg)
可以看到,这一轮中,文心一言表现最好,百小应和通义千问并列第二,腾讯混元助手最差。
第三轮:附件解读
参赛选手:百小应、通义千问、文心一言、kimi(月之暗面)
这一轮,我们把出局的腾讯混元助手换成“kimi”。先看看各位选手支持的附件类型如何。
![](http://image.uc.cn/s/wemedia/s/upload/2024/f900ebd9cca3c511ae3808e991ab656f.jpg)
可以看到,从支持的附件格式来看,百小应排名倒数第二,不如通义千问和kimi,但胜过文心一言3.5。
再看看实际的解读能力如何:
为了公平起见,我们找一个四大选手都支持的格式的文档,限制在10M以内的pdf文件。
小编随便从网上下载了一份三星手机的使用手册,大小5.52兆。看下几位选中的表现如何:
![](http://image.uc.cn/s/wemedia/s/upload/2024/38760b1cc2275e196fb64010aa07d601.jpg)
问题:这份附件是干什么用的?有啥特点?主要说了些什么?
下面是百小应的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/17b0fcc27d5aaaea6842267a411e2784.jpg)
下面是通义千问的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/4e5842727d079fb2eb991cd33ab8e31c.jpg)
下面是文心一言的回答:
下面是kimi的回答:
![](http://image.uc.cn/s/wemedia/s/upload/2024/80cf99f77138fd8240e3a31ed68f1bb1.jpg)
可以看到,通义千问的表现最好,回答的最丰富,而且还猜出了手机属于Galaxy Note系列的一个型号。kimi次之,百小应再次之。文心一言则是答非所问,根本没有读出文档内容。
在本轮比赛中,百小应排名倒数第二(第三名)。
以上三轮比赛中,我们在百小应主推的卖点功能上,各选了另外三家提供服务的竞品进行比较,结果发现,百小应排名都是倒数,仅仅勉强维持在能用的程度,都不出彩。
![](http://image.uc.cn/s/wemedia/s/upload/2024/82ddadc1daeea4bd5fb5a903e1480b38.jpg)
如果再加上竞品在其他方面的服务能力,以及推出的时间,很容易得出结论,百小应确实缺乏竞争力。
百小应的毫无亮点,是否意味着,曾经的搜狗的辉煌,是否真的一去不复返了?