去年年底,OpenAI冷不丁地发布了ChatGPT。
一夜间把整个科技圈,炸得如过年般热闹。
它和咱们聊一天骚话,能算数,甚至能编程,帮程序员修BUG。

当然啦,普通人还在目瞪口呆的时候,科技巨头们已经开始加班搞竞品了。
毕竟跟不上,就会被淘汰。

这不,本来还慢悠悠的微软。
就在ChatGPT发布没多久,光速上线了NewBing。

它把GPT-3.5这个能理解人类语言的大模型,直接放到自家搜索引擎上。
让原本不太聪明的必应,一跃成为了能联网搜索、能联系上下文聊天、近乎全知全能的AI搜索引擎。

相比之下呢。
谷歌对标ChatGPT,发布的AI聊天机器人Bard,表现就有点寒碜了。
不仅在发布会上,出现了错误的回答。
后续有用户在体验内测版时问Bard,大概啥时候倒闭。
然后Bard自信回答道:“快了,我2023年3月21日就关停。”

错误的引用,盲目的回答,都能看出谷歌的训练量其实不太够。
但迫于外界压力,只能把这个练习时长很短的产品,拎上来表演。

更离谱的是,直到今年7月13日,谷歌才正式加入了中文语言的支持。
好家伙,吃菜都赶不上热乎的呗?

不过仔细想来,这个时间点还挺有意思。
毕竟,百度文心一言、讯飞星火都陆续开放测试了。
机哥打算整个活,做个Bard体验&横向对比。
看看几家语言大模型,谁的表现更成熟。

实时信息搜索能力
作为搞机佬,机哥第一个要问的,自然是新机相关问题:
“荣耀Magic V2的发布时间与硬件配置情况。”
说实话,Bard的回答有点抽象。
它说机子是2023年7月12日发布的,搭载骁龙8 Gen 2处理器,到这都没啥问题。

但再看一眼详细配置,机哥陷入了无尽的沉思。
处理器是对的,操作系统却写着鸿蒙3.0。
价格也是对的,但后置摄像头配置又错了...
真假参半,如果对手机数码不够了解,大概会被骗到叭。

那么有没有可能,是Bard对中文的理解不够好呢?
于是我又用英文问了一遍。
可以肯定的是,用英文去问是有加成的。
比如Bard会显示手机图片,点击图片还会跳转到相关网站。
但这丝毫不影响,Bard提供错误信息啊。

什么一亿像素、什么4750mAh电池,都是错的。

明明Bard能联网,但就是没法从网络中,筛选出正确的答案,
我不理解。
至于文心一言这边,最近也加上了百度搜索插件。
所以,它也具备和Bard类似的联网搜索能力。

在实际表现中,文心一言的准确度比Bard高很多。
虽然有几处信息错误,比如发布日期的年份,写着2022年...

另外,其实这机子搭载的,已经是MagicUI 7.2了,而回答里还写着6.0。
但其他部分,像是后置摄像头像素、处理器、电池和内存等信息,文心一言答得都没啥问题。

再看看讯飞星火。
说实话,它写的配置错误比Bard还多,连骁龙888 Plus都拉了出来...
甚至理直气壮表示,Magic V2有两个处理器版本。
彳亍,这是数据库里搜不到有效信息,开始胡言乱语了呗。

所以目前来看,星火模型应该是没联网能力的啦。
在中文时效性信息搜索的能力上,机哥的主观排名是:
文心一言>Bard>星火模型

中文理解能力
当然啦,各家大模型的应用场景,本来就不太一样。
有的重视搜索,有的专注于语言能力本身的打磨。
那么接下来,咱们就测个专业对口的 -- 中文理解能力。
我问Bard:
“不是啊”和“不是吧”,在日常交流中,分别是啥意思。
Bard一顿解释猛如虎,实际是说多错多。
要是咱们按谷歌这AI的意思来交流,估计得被人打一顿。

反倒是文心一言和星火模型,在中文的理解上遥遥领先。
文心一言的解释很详细,回答流畅有逻辑,一眼就能看懂。

而星火模型,甚至做得更细节。
它在解释的同时,还举了些例子,帮用户更好地理解运用。
不愧是做中文智能语音起家的,有点东西。

这还没完啊。
普通的中文测试,只能说是新手难度。
而弱智吧里的那些经典问题,才算得上是地狱级拷打。

于是,机哥直接问了弱智吧问题。
“为什么冰山一角,冰棍却要五毛”。
这时候Bard的脑子显然转不过来了。
它居然...真的在计算冰山成本。

而文心一言和星火模型,依旧是辣么稳健。


两轮测试下来,机哥算是搞清楚了。
Bard现在虽然支持中文,但只能理解简单的语句和词义。
要是玩点地道的双关和逻辑,它脑子就转不过弯了。
有点像刚学会中文的歪果仁,能正常沟通,但很多本土化的俚语还搞不懂。

这是不是能说明,谷歌费尽心思搞出来的Bard,是个摆设玩具?
机哥的评价是,不至于。
多模态识别能力
Bard属于偏科生,它中文能力比ChatGPT弱很多,但识图和编程能力又比较突出。
就拿新推出的AI识图来说,机哥把吃饭的图扔进去。

不到几秒钟,Bard便识别出图里的物体,并逐一介绍出来。

光是识别图片里有啥,好像也没啥意思对吧。
但Bard有个更狠的活儿,有网友表示,可以画个App或网页的设计草图,拍照发过去。
接着,让Bard帮写出该设计的代码。

而Bard也确实保质保量,完成了任务。
作为小白,只需一顿复制粘贴,就能把草图变成货真价实的网页。
这不纯纯的魔法师嘛?

这还不是最离谱的...
机哥在网上找了一张X光图,让Bard帮我检测下身体状况。

结果,Bard真的能分析出点东西来。

但如果把图发给文心一言,则会显示图片异常。
这大概是,主动过滤机制起作用了。
毕竟AI的识别准确率,还没高到人类可以无条件信任的程度。
在没做好该功能之前,还不如不提供相应的功能。

至于星火模型,我在App和网页逛了一圈,都没发现有上传图片的功能。
所以在识图环节,机哥就默认它退赛好了。
总的来说,经过七月大更新后,谷歌那满怀壮志,号称干翻ChatGPT的Bard,总算是能用了。
支持日常的中文,能识图反馈信息,还能联网搜索最新信息。
在功能的丰富性上,其实Bard已经做到了T1水准。

但话又说回来,无论是Bard、文心一言还是星火模型,给到咱们的惊喜是真不多。
顶多是功能上有些许差异,这里我赢一手,那里你反将一军,最后都没能跳脱出“聊天问答”的框架。

换句话说,现在各家的语言大模型都比较成熟了,唯独缺少杀手级的应用场景。
比如Bard以后会不会内置在Pixel手机上,成为遥遥领先的语音助理?
又或者,文心一言能不能内置在小度音响,甚至是百度车机上,实现车机智能化飞升?
这些问题,得交给大厂们来回答啦。