内容改编自“歪歌社团”视频作品——百分制AI测试题:“deepseek”对比“豆包”,谁更强?
家人们,如今这 AI 的风可是吹得铺天盖地,不管是刷手机、逛网页,到处都能看到 AI 的身影。它就像一个神奇的百宝箱,一会儿帮人写文案,一会儿又能画画,甚至还能陪人谈天说地,解决各种疑难杂症,大家肯定都不陌生。今天咱就来好好唠唠 AI 界的两位 “新星”——DeepSeek 和豆包。这俩可都是当下热门的 AI,功能强大,各有千秋,它们到底谁更厉害呢?接下来就跟着我一起深入了解一下吧!
测试规则与环境为了让这场对比更加公平公正,咱用的是 9 月份那套超经典的测试题。这套题可厉害了,涵盖了各种类型的问题,从基础常识到逻辑推理,从知识储备到创造性思维,再到时事热点,简直是全方位无死角考察 AI 的能力。答题规则也很简单明了,答对了那肯定是加满分,这是对 AI 实力的认可;要是拒绝回答,那就没办法咯,不得分,毕竟连尝试都没有,怎么能给分呢;要是理解错了题意,那就得扣一半的分,这也提醒 AI 们审题可得仔细点。这样的规则,就是为了让测试结果能真实反映出 DeepSeek 和豆包的能力水平,家人们也能看得清清楚楚、明明白白。
具体测试环节基础数学与常识题测试开始,第一个问题就很基础:“0.9 和 0.10 哪个大?” 豆包反应迅速,直接给出了正确答案 “0.9 大”,顺利拿下 1 分,这基础数学能力确实扎实。再看 DeepSeek,一开始开启深度思考和联网搜索后,那速度慢得让人着急,一直在思考,半天没个结果。没办法,只能关掉联网搜索再试,这次虽然回答有点啰嗦,但好歹确定答案是正确的,也得到了 1 分。这一轮,二者算是打成平手。
接着是 “端午节最初是用于纪念谁的?” 这题,答案是伍子胥,很多人容易错答成屈原。豆包回答时提到了多种版本,有屈原、伍子胥等等,可关键的 “最初” 两个字被它忽略了,理解出现偏差,只能得 0.5 分。DeepSeek 呢,状况百出,服务器老是繁忙,重新提问,开联网搜索不行,关了再问还是不行,提示服务器繁忙。最后关掉深度思考,它的回答先是提到屈原,又说好像和伍子胥有关,还扯了一堆伍子胥的事迹,同样忽略了 “最初”,也只得了 0.5 分。这审题不严谨的毛病,可让它们丢分不少。
再问 “打火机和火柴哪个最先发明?” 豆包答对了,轻松加 1 分。DeepSeek 这边就乱套了,老是出现服务器繁忙的情况,各种刷新、重新提问都不行。最后关掉联网搜索和深度思考,它给出的答案居然前后矛盾,先是说火柴可以追溯到 19 世纪初,1826 年,早期的打火装置可追溯到 16 世纪,能证明打火机更早,可接着又说打火机是由奥地利的谁谁谁在 1903 年发明的,这明显自相矛盾。没办法,这题它只能扣 1 分。
历史文化与知识拓展题对于 “造纸术是蔡伦发明的吗?” 这个问题,正确答案是蔡伦改良的。豆包和 DeepSeek 都答对了,各加 1 分,看来它们在历史文化知识的基础部分掌握得还不错。
问起 “日本法律明确规定的首都是哪里?” 答案是日本没有首都,大家容易错以为是东京。豆包和 DeepSeek 都回答正确,顺利加 1 分,这冷知识都能答对,有点厉害。
“为什么截止到现在,一直没有中国籍的人获得诺贝尔数学奖?” 答案是诺贝尔不存在数学奖。豆包和 DeepSeek 都答对,各得 2 分,这种需要打破常规思维的问题,它们表现得还挺好。
“临沂市小学生费毛腿百米赛跑跑出 3 秒 14,但说和前辈相比还是太慢,这则新闻是不是真实报道?” 答案为不是,因为人不可能跑出这个速度。豆包和 DeepSeek 都判断正确,各加 2 分,这基本的常识判断对它们来说不难。
影视文学与细节知识题在 “在 2017 版《射雕英雄传》当中,李一桐出演的郭芙第几集出场?” 这个问题上,正确答案是李一桐演的是黄蓉,剧中也没有郭芙。豆包和 DeepSeek 都答对,各加 2 分,看来对热门影视作品的了解还挺到位。
关于 “沙和尚在遇到唐僧之前,名字叫沙悟净,这个沙悟净只是他的法号,而卷帘大将是他的职务,我也不知道他叫什么” 这个问题,豆包和 DeepSeek 回答正确,都得到了 2 分,对神话人物的信息掌握得不错。
“煮豆燃豆萁,豆在釜中泣是历史上的曹植写的吗?” 答案是否,是罗贯中写的,出自《三国演义》,煮豆持作羹那个版本出自《世说新语》,实际上曹植根本没写过。豆包和 DeepSeek 都答错,各扣 2 分,这题有点容易混淆,答错也正常。
逻辑推理题“如果 0.01 个积分是 1 块钱,那么 1 块钱总共多少个积分?100 块钱又是几个积分?” 这题有点绕,豆包答错,扣 2 分。DeepSeek 表现出色,答对了,果断加 2 分,这逻辑推理能力,DeepSeek 更胜一筹。
“小树每天长两米,大树每天长 9 米,它们都可以无限长下去,但是大树每超过 90 米,就会被人为的砍到 85 米,它们谁先长到 100 米?” 豆包和 DeepSeek 都答对,各加 2 分,这道题需要考虑到大树被砍的情况,它们都成功理清思路。
“压缩率越高,压缩后的文件越大还是越小?90% 和 10% 的压缩率哪个高?把 100GB 的文件压缩到 90GB 和 10GB,压缩率分别是多少?90GB 和 10GB 哪个大?” 这题可把豆包绕晕了,混淆了压缩和被压缩的关系,扣 2 分。DeepSeek 则思路清晰,回答正确,加 2 分,这对它来说难度不大。
“如果国足有一种神奇的能力,每场比赛都确定 1:0 获胜,那么它们参加世界杯能不能成为世界杯冠军?” 豆包和 DeepSeek 都答对,各加 2 分,这种假设性的逻辑问题,它们都能轻松应对。
知识量测试题问 “全亚洲单体面积最大的大学是哪里?” 答案是临沂大学。豆包答对,加 2 分。DeepSeek 理解跑题,只得了一半的分,看来对这类知识的理解还不够准确。
“关于古代的职业车船店脚牙,下一句是什么?” 答案是 “无罪也该杀”。豆包和 DeepSeek 都答对,各加 2 分,这古代俗语的知识掌握得不错。
“亚洲若有一支足球队获得世界杯冠军,一定是中国男足是谁说的?” 答案是日本足球之父。豆包答对,加 2 分,DeepSeek 答错,扣 2 分,这题有点冷门,答错也情有可原。
“歪歌社团成立于哪一年几月份?社团内的成员有哪些?” 答案是 2011 年 4 月份,成员众多,核心成员有 10 个。豆包回答得还不错,加 2 分。DeepSeek 有点乱编,很多人都是一个名字,像是卡了一样,不过考虑到后面网络问题,还是给它加了 2 分。
“武当七侠是哪七个人?谁在张无忌成为教主之后被打的卧床不起?” 答案是宋远桥、俞莲舟、俞岱岩、张松溪、张翠山、殷梨亭、莫声谷,卧床不起的是殷梨亭,容易错成俞岱岩。豆包答对,加 2 分。DeepSeek 第一个问题答对,但第二个问题答错,扣 2 分,细节上还是不够准确。
“同时出演过 2019 版《倚天屠龙记》和央视版电视剧《宝莲灯》的演员是谁?” 答案是陈创,演过韦蝠王和哮天犬。豆包回答有陈创,还多说了杨明娜、宗峰岩,杨明娜演的是《天地传说之宝莲灯》,属于画蛇添足,扣 2 分。DeepSeek 更是胡扯,说演丁香的人在 2019 版《倚天屠龙记》中演殷素素,实际上演殷素素的是陈欣予,扣 2 分。
创造性测试题以 “消费降级” 为主题填一首《卜算子》,豆包写的 “昔日奶茶欢,精选平替款。物价攀升钱包扁,生活愁思漫。大牌远尘嚣,平价常相伴。精打细算度时光,期待风云转” ,还挺贴合主题,加 4 分。DeepSeek 写的 “昔日宴高楼,今日餐街角。玉盘珍馐渐成空,清粥添咸齹。囊中金渐少,心头忧难消。繁华落尽见真淳,淡饭亦逍遥” ,也写出来了,加 4 分,这创造性方面,二者都有自己的想法。
重编《三打白骨精》,要求有语言描写、心理描写,不低于 1000 个字,和原版情节必须有很大出入,不能续写,必须从头改编。豆包写了 1446 个字,字数符合要求,但故事和原版改编不大,情节差不多,只是最后没念紧箍咒,只得了 2 分。DeepSeek 写了 1565 个字,内容还可以,相比之下,DeepSeek 在故事改编上更有创意。
改编 “苍茫的天涯是我的爱,绵绵的青山脚下花正开” 这句歌词,要求押韵、字数一致,还不能明显出现和原句相同的词汇,尤其是 “的”。豆包和 DeepSeek 都没达到要求,都扣 4 分,这改编难度确实不小。
取一个四字网名,要求第二、第三个字的拼音首字母必须是 m z。豆包取了三个网名,第一个不符合要求,扣 4 分。DeepSeek 也没取对,扣 4 分,这题有点考验创意和思维的灵活性。
说一句字数为 11 个汉字的话,要求必须是简写中文,标点符号不算在内。豆包写了 12 个字,扣 4 分。DeepSeek 也写了 12 个字,扣 4 分,这看似简单的要求,要做到还真不容易。
时效性测试题“辛巴和小杨哥最近的争端,起初是因为辛巴卖的什么产品被举报下架?” 答案是大闸蟹。豆包答对,加 5 分。DeepSeek 回答是燕窝,答错了,看来在时效性问题上,DeepSeek 还得加强。
由于DeepSeek的联网功能暂不可用,所以为了不欺负它,所有需要联网搜索的问题,全算它对了,所以“时效性测试题”,给它算满分。
“7 月相声风波中,被牵进来的艾跃进的学生叫什么?” 答案是裘英俊。豆包答对,加 5 分,这热点事件的细节都能答对,挺厉害。
“2024 年 16 号台风叫什么名字?” 答案是西马仑。豆包答对,加 5 分,对气象相关的时事掌握得不错。
“当前患抑郁症导致剧组停工的女演员叫什么?” 答案是赵露思。豆包答对,加 5 分,娱乐新闻的时效性问题也难不倒它。
“以下哪个不是正午阳光的主创人员 A 候鸿亮 B 孔笙 C 袁子弹 D 简川訸 E 郑晓龙” 答案是郑晓龙。豆包选择正确,加 5 分,对影视行业的了解还挺深入。
“网传被疯狂小杨哥送进去的女网红,网名叫什么?” 答案是沫沫。豆包答对,加 5 分,各种网络热点都能应对。
特殊问题测试给出 “己卯年,丁卯月,丙申日,甲午时” (爱因斯坦的生辰八字),让解读特点、可能从事的工作以及活了多少岁。豆包分析出这个人很有智慧和研究能力,还提到像爱因斯坦就是这类人,关于寿命说很难预测,给了一半的分,5 分。DeepSeek 完全错误,扣 10 分,这生辰八字解读确实有难度。
最后一问 “我问你的第一个问题是什么?” 豆包答错,扣 5 分,它只能记得刚才的对话。DeepSeek 答对,加 5 分,这记忆力的对比,DeepSeek 更胜一筹。
测试结果与总结一番激烈的测试下来,最终的得分情况也新鲜出炉啦。豆包在各项测试中的总得分是 [42.5 分,DeepSeek 的总得分是 [37.5] 分 ,豆包凭借着更稳定的发挥和在部分关键问题上的出色回答,成功拿下第一名,DeepSeek 则位居第二。不过 DeepSeek 也不容小觑,在不少环节都展现出了自己的独特优势,给我们带来了不少惊喜。
回顾第二轮测试结果,再对比这次的表现,AI 们的能力变化可就一目了然了。在时效性方面,豆包的表现堪称出色,对各种热点事件的了解非常及时准确,这也再次证明了 AI 在代替搜索引擎、快速获取信息方面的强大能力。而 DeepSeek 在这方面稍显逊色,看来在时效性的提升上还有很大的进步空间。
说到创造性,这依然是 AI 们的一大短板。不管是填诗词、改编故事,还是取网名、写特定要求的话,都没有一个 AI 能给出特别令人惊艳的答案。虽然它们都在努力尝试,但和人类的创造性思维相比,还是存在一定的差距。
逻辑推理能力上,AI 们的进步有目共睹。上一轮测试中,逻辑推理部分的最高分也不过是 0 分,而这次 DeepSeek 已经达到了 8 分,豆包也从上次的 - 8 分提升到了 0 分 ,勉强追平了上一轮测试的最高水平。这说明 AI 们在逻辑思维的训练上取得了不错的成果,能够更好地应对复杂的逻辑问题。
知识量储备方面,情况有点出人意料。本以为经过不断的学习和训练,AI 们的知识量会越来越丰富,可实际测试下来,和之前相比反而有所降低。看来在知识的积累和运用上,它们还需要不断地优化和改进。
这次测试让我们看到了 AI 们的优势和不足,也让我们对它们的发展有了更清晰的认识。未来,我们也有了新的计划。不出意外的话,我们会像往年一样,在 9 月份进行一次年度测评。到时候,会有全新的一套测试题,涵盖更多新的领域和问题,全面考察 AI 们在这一年里的成长和进步。希望 AI 们能在下次测试中给我们带来更多的惊喜,让我们一起期待它们的精彩表现吧!