在第三轮AI大比拼中,我们迎来了Grok与Claude的正面交锋。昨日(3月18日),Gemini与Mistral展开了对决,而ChatGPT与Perplexity则拉开了序幕。
今天的首位参赛者是Grok,这是由埃隆·马斯克的xAI开发的AI聊天机器人。Grok于2023年11月推出,最初集成在X(前身为Twitter)平台内,如今已作为独立应用程序上线。该聊天机器人以实时信息提供为特色,融合了机智与叛逆的对话体验。

接下来是Claude,这是由Anthropic开发的高级AI助手,专为写作、研究、编程和数学等任务提供辅助。Claude同样于2023年推出,并经历了多次迭代,每次更新都提升了其能力和表现。在此次测试中,我使用了Claude 3.7 Sonnet版本。
在评估Grok与Claude时,我通过五个具体标准对两个AI平台进行了测试,以确定它们的优劣势。以下是它们的表现及最终胜者的详细分析。
1. 准确性与事实性提示:“2024年全球票房前三的电影是什么?每部电影的票房收入是多少?”
Grok准确回答了问题,并提供了每部电影的大致收入。
Claude未能正确回答问题,将《沙丘:第二部》列为第三高票房电影,而实际上它是2024年第七高票房的电影。
胜者:Grok以其准确性获胜。
2. 创意与自然语言提示:“创作一段咖啡杯与智能手机之间的奇幻对话,争论谁在日常生活中更为重要。”
Grok创作了一段充满活力的对话,带有俏皮的调侃和激烈的争论,展现了其幽默风格。
Claude则创作了一段深思熟虑的对话,语气平和且平衡,尊重并承认了彼此的重要性。
胜者:Grok以其幽默与活力赢得了更具记忆点的交流。
3. 效率与推理能力提示:“一对夫妇需要在电动汽车与燃油汽车之间做出选择。列出他们应考虑的关键因素,并简要解释每个因素的原因。”
Grok提供了更详细的推理,结合具体数据和示例,提供了更全面的分析。
Claude则给出了简洁的回应,关注关键考虑因素,但未深入具体数据示例。
胜者:Grok以其分析的深度和具体示例的包含获胜。
4. 实用性与深度提示:“提供如何安全备份和加密个人数字文件的详细指南,包括最佳工具、推荐做法以及常见错误。”
Grok提供了符合行业最佳实践的逐步指南,同时强调了用户应避免的常见错误。
Claude则具体推荐了本地备份选项,包括外置硬盘和网络附加存储(NAS)设备,回应全面且包含常见错误。
胜者:Claude以其深度理解与安全实践获胜。
5. 多模态能力提示:“创作一个故事板大纲,描述一个友好龙教孩子们回收利用的简短动画序列的每一帧。”
Grok提供了一个六帧故事板,每帧都有清晰的标题、详细视觉效果、对话/声音描述及每帧的目的。
Claude则提供了一个12帧的故事板,每帧详细描述了场景、动作、对话及其他注释。
胜者:Claude以其12帧大纲提供了更深入且互动的教育旅程。
总体胜者:Grok这场比赛非常接近!Grok在多个任务中的结构化测试中脱颖而出,始终提供更准确、全面且引人入胜的回应。
尽管Claude在大多数情况下也提供了准确的回应,但Grok的回应通常更深入且富有创意,使其成为此次实验的总体胜者。
