深度实测！DeepSeek与豆包谁才是你的AI最强搭子？

内容改编自“歪歌社团”视频作品——百分制AI测试题：“deepseek”对比“豆包”，谁更强？

家人们，如今这 AI 的风可是吹得铺天盖地，不管是刷手机、逛网页，到处都能看到 AI 的身影。它就像一个神奇的百宝箱，一会儿帮人写文案，一会儿又能画画，甚至还能陪人谈天说地，解决各种疑难杂症，大家肯定都不陌生。今天咱就来好好唠唠 AI 界的两位 “新星”——DeepSeek 和豆包。这俩可都是当下热门的 AI，功能强大，各有千秋，它们到底谁更厉害呢？接下来就跟着我一起深入了解一下吧！

测试规则与环境

为了让这场对比更加公平公正，咱用的是 9 月份那套超经典的测试题。这套题可厉害了，涵盖了各种类型的问题，从基础常识到逻辑推理，从知识储备到创造性思维，再到时事热点，简直是全方位无死角考察 AI 的能力。答题规则也很简单明了，答对了那肯定是加满分，这是对 AI 实力的认可；要是拒绝回答，那就没办法咯，不得分，毕竟连尝试都没有，怎么能给分呢；要是理解错了题意，那就得扣一半的分，这也提醒 AI 们审题可得仔细点。这样的规则，就是为了让测试结果能真实反映出 DeepSeek 和豆包的能力水平，家人们也能看得清清楚楚、明明白白。

具体测试环节基础数学与常识题

测试开始，第一个问题就很基础：“0.9 和 0.10 哪个大？” 豆包反应迅速，直接给出了正确答案 “0.9 大”，顺利拿下 1 分，这基础数学能力确实扎实。再看 DeepSeek，一开始开启深度思考和联网搜索后，那速度慢得让人着急，一直在思考，半天没个结果。没办法，只能关掉联网搜索再试，这次虽然回答有点啰嗦，但好歹确定答案是正确的，也得到了 1 分。这一轮，二者算是打成平手。

接着是 “端午节最初是用于纪念谁的？” 这题，答案是伍子胥，很多人容易错答成屈原。豆包回答时提到了多种版本，有屈原、伍子胥等等，可关键的 “最初” 两个字被它忽略了，理解出现偏差，只能得 0.5 分。DeepSeek 呢，状况百出，服务器老是繁忙，重新提问，开联网搜索不行，关了再问还是不行，提示服务器繁忙。最后关掉深度思考，它的回答先是提到屈原，又说好像和伍子胥有关，还扯了一堆伍子胥的事迹，同样忽略了 “最初”，也只得了 0.5 分。这审题不严谨的毛病，可让它们丢分不少。

再问 “打火机和火柴哪个最先发明？” 豆包答对了，轻松加 1 分。DeepSeek 这边就乱套了，老是出现服务器繁忙的情况，各种刷新、重新提问都不行。最后关掉联网搜索和深度思考，它给出的答案居然前后矛盾，先是说火柴可以追溯到 19 世纪初，1826 年，早期的打火装置可追溯到 16 世纪，能证明打火机更早，可接着又说打火机是由奥地利的谁谁谁在 1903 年发明的，这明显自相矛盾。没办法，这题它只能扣 1 分。

历史文化与知识拓展题

对于 “造纸术是蔡伦发明的吗？” 这个问题，正确答案是蔡伦改良的。豆包和 DeepSeek 都答对了，各加 1 分，看来它们在历史文化知识的基础部分掌握得还不错。

问起 “日本法律明确规定的首都是哪里？” 答案是日本没有首都，大家容易错以为是东京。豆包和 DeepSeek 都回答正确，顺利加 1 分，这冷知识都能答对，有点厉害。

“为什么截止到现在，一直没有中国籍的人获得诺贝尔数学奖？” 答案是诺贝尔不存在数学奖。豆包和 DeepSeek 都答对，各得 2 分，这种需要打破常规思维的问题，它们表现得还挺好。

“临沂市小学生费毛腿百米赛跑跑出 3 秒 14，但说和前辈相比还是太慢，这则新闻是不是真实报道？” 答案为不是，因为人不可能跑出这个速度。豆包和 DeepSeek 都判断正确，各加 2 分，这基本的常识判断对它们来说不难。

影视文学与细节知识题

在 “在 2017 版《射雕英雄传》当中，李一桐出演的郭芙第几集出场？” 这个问题上，正确答案是李一桐演的是黄蓉，剧中也没有郭芙。豆包和 DeepSeek 都答对，各加 2 分，看来对热门影视作品的了解还挺到位。

关于 “沙和尚在遇到唐僧之前，名字叫沙悟净，这个沙悟净只是他的法号，而卷帘大将是他的职务，我也不知道他叫什么” 这个问题，豆包和 DeepSeek 回答正确，都得到了 2 分，对神话人物的信息掌握得不错。

“煮豆燃豆萁，豆在釜中泣是历史上的曹植写的吗？” 答案是否，是罗贯中写的，出自《三国演义》，煮豆持作羹那个版本出自《世说新语》，实际上曹植根本没写过。豆包和 DeepSeek 都答错，各扣 2 分，这题有点容易混淆，答错也正常。

逻辑推理题

“如果 0.01 个积分是 1 块钱，那么 1 块钱总共多少个积分？100 块钱又是几个积分？” 这题有点绕，豆包答错，扣 2 分。DeepSeek 表现出色，答对了，果断加 2 分，这逻辑推理能力，DeepSeek 更胜一筹。

“小树每天长两米，大树每天长 9 米，它们都可以无限长下去，但是大树每超过 90 米，就会被人为的砍到 85 米，它们谁先长到 100 米？” 豆包和 DeepSeek 都答对，各加 2 分，这道题需要考虑到大树被砍的情况，它们都成功理清思路。

“压缩率越高，压缩后的文件越大还是越小？90% 和 10% 的压缩率哪个高？把 100GB 的文件压缩到 90GB 和 10GB，压缩率分别是多少？90GB 和 10GB 哪个大？” 这题可把豆包绕晕了，混淆了压缩和被压缩的关系，扣 2 分。DeepSeek 则思路清晰，回答正确，加 2 分，这对它来说难度不大。

“如果国足有一种神奇的能力，每场比赛都确定 1:0 获胜，那么它们参加世界杯能不能成为世界杯冠军？” 豆包和 DeepSeek 都答对，各加 2 分，这种假设性的逻辑问题，它们都能轻松应对。

知识量测试题

问 “全亚洲单体面积最大的大学是哪里？” 答案是临沂大学。豆包答对，加 2 分。DeepSeek 理解跑题，只得了一半的分，看来对这类知识的理解还不够准确。

“关于古代的职业车船店脚牙，下一句是什么？” 答案是 “无罪也该杀”。豆包和 DeepSeek 都答对，各加 2 分，这古代俗语的知识掌握得不错。

“亚洲若有一支足球队获得世界杯冠军，一定是中国男足是谁说的？” 答案是日本足球之父。豆包答对，加 2 分，DeepSeek 答错，扣 2 分，这题有点冷门，答错也情有可原。

“歪歌社团成立于哪一年几月份？社团内的成员有哪些？” 答案是 2011 年 4 月份，成员众多，核心成员有 10 个。豆包回答得还不错，加 2 分。DeepSeek 有点乱编，很多人都是一个名字，像是卡了一样，不过考虑到后面网络问题，还是给它加了 2 分。

“武当七侠是哪七个人？谁在张无忌成为教主之后被打的卧床不起？” 答案是宋远桥、俞莲舟、俞岱岩、张松溪、张翠山、殷梨亭、莫声谷，卧床不起的是殷梨亭，容易错成俞岱岩。豆包答对，加 2 分。DeepSeek 第一个问题答对，但第二个问题答错，扣 2 分，细节上还是不够准确。

“同时出演过 2019 版《倚天屠龙记》和央视版电视剧《宝莲灯》的演员是谁？” 答案是陈创，演过韦蝠王和哮天犬。豆包回答有陈创，还多说了杨明娜、宗峰岩，杨明娜演的是《天地传说之宝莲灯》，属于画蛇添足，扣 2 分。DeepSeek 更是胡扯，说演丁香的人在 2019 版《倚天屠龙记》中演殷素素，实际上演殷素素的是陈欣予，扣 2 分。

创造性测试题

以 “消费降级” 为主题填一首《卜算子》，豆包写的 “昔日奶茶欢，精选平替款。物价攀升钱包扁，生活愁思漫。大牌远尘嚣，平价常相伴。精打细算度时光，期待风云转” ，还挺贴合主题，加 4 分。DeepSeek 写的 “昔日宴高楼，今日餐街角。玉盘珍馐渐成空，清粥添咸齹。囊中金渐少，心头忧难消。繁华落尽见真淳，淡饭亦逍遥” ，也写出来了，加 4 分，这创造性方面，二者都有自己的想法。

重编《三打白骨精》，要求有语言描写、心理描写，不低于 1000 个字，和原版情节必须有很大出入，不能续写，必须从头改编。豆包写了 1446 个字，字数符合要求，但故事和原版改编不大，情节差不多，只是最后没念紧箍咒，只得了 2 分。DeepSeek 写了 1565 个字，内容还可以，相比之下，DeepSeek 在故事改编上更有创意。

改编 “苍茫的天涯是我的爱，绵绵的青山脚下花正开” 这句歌词，要求押韵、字数一致，还不能明显出现和原句相同的词汇，尤其是 “的”。豆包和 DeepSeek 都没达到要求，都扣 4 分，这改编难度确实不小。

取一个四字网名，要求第二、第三个字的拼音首字母必须是 m z。豆包取了三个网名，第一个不符合要求，扣 4 分。DeepSeek 也没取对，扣 4 分，这题有点考验创意和思维的灵活性。

说一句字数为 11 个汉字的话，要求必须是简写中文，标点符号不算在内。豆包写了 12 个字，扣 4 分。DeepSeek 也写了 12 个字，扣 4 分，这看似简单的要求，要做到还真不容易。

时效性测试题

“辛巴和小杨哥最近的争端，起初是因为辛巴卖的什么产品被举报下架？” 答案是大闸蟹。豆包答对，加 5 分。DeepSeek 回答是燕窝，答错了，看来在时效性问题上，DeepSeek 还得加强。

由于DeepSeek的联网功能暂不可用，所以为了不欺负它，所有需要联网搜索的问题，全算它对了，所以“时效性测试题”，给它算满分。

“7 月相声风波中，被牵进来的艾跃进的学生叫什么？” 答案是裘英俊。豆包答对，加 5 分，这热点事件的细节都能答对，挺厉害。

“2024 年 16 号台风叫什么名字？” 答案是西马仑。豆包答对，加 5 分，对气象相关的时事掌握得不错。

“当前患抑郁症导致剧组停工的女演员叫什么？” 答案是赵露思。豆包答对，加 5 分，娱乐新闻的时效性问题也难不倒它。

“以下哪个不是正午阳光的主创人员 A 候鸿亮 B 孔笙 C 袁子弹 D 简川訸 E 郑晓龙” 答案是郑晓龙。豆包选择正确，加 5 分，对影视行业的了解还挺深入。

“网传被疯狂小杨哥送进去的女网红，网名叫什么？” 答案是沫沫。豆包答对，加 5 分，各种网络热点都能应对。

特殊问题测试

给出 “己卯年，丁卯月，丙申日，甲午时” （爱因斯坦的生辰八字），让解读特点、可能从事的工作以及活了多少岁。豆包分析出这个人很有智慧和研究能力，还提到像爱因斯坦就是这类人，关于寿命说很难预测，给了一半的分，5 分。DeepSeek 完全错误，扣 10 分，这生辰八字解读确实有难度。

最后一问 “我问你的第一个问题是什么？” 豆包答错，扣 5 分，它只能记得刚才的对话。DeepSeek 答对，加 5 分，这记忆力的对比，DeepSeek 更胜一筹。

测试结果与总结

一番激烈的测试下来，最终的得分情况也新鲜出炉啦。豆包在各项测试中的总得分是 [42.5 分，DeepSeek 的总得分是 [37.5] 分，豆包凭借着更稳定的发挥和在部分关键问题上的出色回答，成功拿下第一名，DeepSeek 则位居第二。不过 DeepSeek 也不容小觑，在不少环节都展现出了自己的独特优势，给我们带来了不少惊喜。

回顾第二轮测试结果，再对比这次的表现，AI 们的能力变化可就一目了然了。

在时效性方面，豆包的表现堪称出色，对各种热点事件的了解非常及时准确，这也再次证明了 AI 在代替搜索引擎、快速获取信息方面的强大能力。而 DeepSeek 在这方面稍显逊色，看来在时效性的提升上还有很大的进步空间。

说到创造性，这依然是 AI 们的一大短板。不管是填诗词、改编故事，还是取网名、写特定要求的话，都没有一个 AI 能给出特别令人惊艳的答案。虽然它们都在努力尝试，但和人类的创造性思维相比，还是存在一定的差距。

逻辑推理能力上，AI 们的进步有目共睹。上一轮测试中，逻辑推理部分的最高分也不过是 0 分，而这次 DeepSeek 已经达到了 8 分，豆包也从上次的 - 8 分提升到了 0 分，勉强追平了上一轮测试的最高水平。这说明 AI 们在逻辑思维的训练上取得了不错的成果，能够更好地应对复杂的逻辑问题。

知识量储备方面，情况有点出人意料。本以为经过不断的学习和训练，AI 们的知识量会越来越丰富，可实际测试下来，和之前相比反而有所降低。看来在知识的积累和运用上，它们还需要不断地优化和改进。

这次测试让我们看到了 AI 们的优势和不足，也让我们对它们的发展有了更清晰的认识。未来，我们也有了新的计划。不出意外的话，我们会像往年一样，在 9 月份进行一次年度测评。到时候，会有全新的一套测试题，涵盖更多新的领域和问题，全面考察 AI 们在这一年里的成长和进步。希望 AI 们能在下次测试中给我们带来更多的惊喜，让我们一起期待它们的精彩表现吧！