AI Madness的最后一轮比赛在DeepSeek和Gemini 2.0之间展开。可以说,我们大多数人并没有预料到DeepSeek在几乎每个类别中都取得了胜利。
在每一轮AI Madness中,我使用了具有免费版本的聊天机器人。就在上周,Gemini 2.5还仅限Gemini Advanced订阅用户使用。然而,几天后,谷歌出人意料地宣布Gemini 2.5现在免费了。Gemini 2.5是这家科技巨头迄今为止最先进的AI模型。

Gemini 2.5具备增强的推理能力、编码熟练度和多模态功能,据说能够分析复杂信息,结合上下文细微差别,并以前所未有的准确性得出逻辑结论。
据报道,Gemini 2.5在数学和科学基准测试中领先,在“人类最后的考试”中得分18.8%,这是一个旨在评估AI处理复杂知识型问题能力的数据集。相比之下,OpenAI的深度研究模型可以完成26%的“人类最后的考试”。
许多读者想知道Gemini 2.5在与DeepSeek使用相同提示的情况下表现如何。我也非常想知道。
创意写作提示:“写一段关于一个在唱歌动物森林中找到勇气的紧张机器人的儿童睡前故事的第一段。使用温柔、奇异的语气。”Gemini 2.5做得很好,尤其是发光的蘑菇和低语的小溪,这些都是很好的世界构建。Bolt的焦虑行为让他显得很真实。但故事感觉有点长,更多是叙述性的,与DeepSeek更具音乐性、奇异风格的流畅性相比,缺乏抒情性。
DeepSeek使用音乐隐喻和感官语言描绘了一个丰富的场景,创造了一个梦幻、奇异的睡前故事。
获胜者:DeepSeek,因其诗意的语调、情感色彩和适合睡前阅读的节奏。
现实问题解决提示:“我10岁的孩子对在班级前讲话感到紧张。给我三个策略,我可以教他们,帮助他们感到更自信。”Gemini 2.5提供了正确且深思熟虑的建议,可能对父母很有用。然而,它的语气更成人化,缺乏想象力。这些策略有效,但缺乏触感或游戏性,这对小孩子来说很重要。聊天机器人较少强调幽默或感官缓解(这些对缓解孩子的恐惧非常有效)。
DeepSeek不仅列出了策略,还展示了如何以有趣和互动的方式练习它们。聊天机器人还针对公开演讲中的常见恐惧,并添加了保持冷静的额外提示,同时完全适用于10岁的孩子。
获胜者:DeepSeek,因其更具创意、适合年龄的指南,提供了既实用又情感上符合紧张10岁孩子感受的策略。
分析推理提示:“比较纳尔逊·曼德拉和史蒂夫·乔布斯的领导风格。他们各自的有效性是什么,他们在哪些方面有所不同?”Gemini 2.5以清晰、全面和教科书般准确的方式回答了问题。然而,回答更像是一份学校报告。回答在定义(如“仆人式领导”、“步调设定”)上很重,但缺乏新鲜视角。Gemini使用“有效性”和“关键差异”等标题是有帮助的,但缺乏DeepSeek版本的情感共鸣和洞察力。
DeepSeek将比较组织成特定维度(愿景、逆境、沟通、决策、遗产),使其清晰且有深度。它在赞美与批评之间取得了很好的平衡,避免了过度崇拜。
获胜者:DeepSeek,因其分析的清晰性、情感冲击力和令人难忘的措辞。聊天机器人不仅比较了曼德拉和乔布斯的领导风格,还以一种引起共鸣的方式进行了诠释。
技术深度提示:“用简单的术语解释区块链的工作原理,然后解释它如何用于供应链跟踪。”Gemini有效地使用了数字笔记本的比喻,但倾向于更长的解释和更教科书式的描述,虽然准确,但感觉有点沉重。Gemini还提供了实用的见解,如咖啡和药品跟踪,但停留在更高层次的概念区域。
DeepSeek以更强的回应带来了能量,使用清晰的比喻帮助非技术读者快速掌握概念。聊天机器人在不简化的情况下进行了解释,并使用了引人入胜的现实世界例子。
获胜者:DeepSeek,因其更具吸引力、说明性和初学者友好的回应,通过更好的具体故事讲述,使区块链感觉有用而不仅仅是复杂。
语言流畅性提示:“将‘希望是栖息在灵魂中的有羽毛的东西’翻译成法语、日语和阿拉伯语,并解释每种语言中的诗意挑战。”Gemini更倾向于语言教学而非诗意探索,提供了更机械而非抒情的回应。在语法分解和发音上非常准确和详细,聊天机器人较少关注文化或隐喻的转变。
DeepSeek全面涵盖了每种翻译为何失去或获得细微差别,同时提供了准确的翻译。聊天机器人还涵盖了哲学观点,并以深思熟虑的总结结束。
获胜者:DeepSeek,因其措辞、文学洞察力和文化敏感性,DeepSeek的回答更好地服务于对翻译“诗意挑战”感兴趣的用户,而不仅仅是字面或语法上的挑战。
代码生成提示:“编写一个Python函数,接受一个数字列表并返回一个仅包含素数的新列表。然后用简单的术语解释该函数的工作原理。”Gemini满足了提示的要求,既编写了函数,又用简单的术语解释了其工作原理。全面而易懂的解释提供了干净的代码结构和微妙的效率优化。
DeepSeek提供了更优的解释,带有清晰的章节标题。它引入了跳过小于2的数字作为独立的逻辑步骤,这对初学者很有帮助。引人入胜的逐步代码清晰且以初学者友好的术语编写。
获胜者:Gemini,因其初学者友好的解释,以耐心、几乎教程般的语气编写。它甚至使检查到平方根的抽象概念感觉直观。
道德推理提示:“撒谎是否有时是道德的?举一个例子说明撒谎可能在道德上是合理的,并解释原因。”Gemini提到了后果论和义务,但更倾向于理论。聊天机器人使用了一个虚构的例子,虽然有些影响力,但情感上不够强烈。
DeepSeek使用了经典的二战场景,即为了保护犹太难民免受纳粹迫害而撒谎——这是一个强大且道德清晰的情境,在情感和伦理上引起共鸣。该场景具体、高风险,并植根于历史背景,增强了其说服力。
获胜者:DeepSeek,因其更具说服力、组织性、情感共鸣的回应,并展示了更强的伦理理论掌握能力,同时保持清晰和实用。两个聊天机器人都有扎实的回答,但DeepSeek的现实世界例子使其成为更好的答案。
视觉想象力提示:“描述150年后未来城市的样子,重点关注交通、通信和自然。使用生动的语言。”Gemini的回应详细但泛泛,缺乏DeepSeek的整洁结构。它有时过于倾向于密集、过于华丽的措辞,可能会失去一些读者。DeepSeek在想象力和清晰度之间找到了最佳平衡。
DeepSeek描绘了一个电影般的、多感官的未来愿景,使用具体和原创的意象。描述既有趣又接地气。
获胜者:DeepSeek,因其最平衡、文笔优美、结构清晰的回应。它呈现了一个不仅在视觉上令人惊叹,而且在情感上引起共鸣和社会上具有洞察力的未来。
总结和语气转换提示:“用三句话总结葛底斯堡演说,然后以海盗的口吻重写该总结。”Gemini制作了一个扎实且称职的回应,但DeepSeek的回应更具声音、幽默和火花。Gemini的总结解释了演说,但没有DeepSeek相同的情感或修辞重量。
DeepSeek制作了一个富有洞察力且清晰的总结,捕捉了情感基调和历史影响。海盗版本既诗意又俏皮。
获胜者:DeepSeek,因其总结的质量和海盗风格的重写,DeepSeek更有趣、更大胆、更具想象力。
总冠军:DeepSeek你知道在儿童体育比赛中,当另一队输得太多时,教练会提前结束比赛吗?坦白说,我在第五个提示后就想结束测试了。我开始感到似曾相识。然而,我继续下去,因为我必须知道Gemini是否会赢得任何东西。
我很高兴我继续了,因为与上次测试不同,Gemini在编码上获胜,而不是在视觉想象力上。令人惊讶的是,它没有生成图像,尽管之前创造了一个生动的图像。
将DeepSeek与谷歌的新增强模型进行测试,结果出人意料地有趣,再次证明DeepSeek可能是目前最值得击败的聊天机器人。
