在人工智能飞速发展的时代,临床医生也迎来了诸多助力诊疗工作的AI大模型。这些模型在辅助诊断、文献检索、患者管理等方面各展其能,本文将对目前主流的几款大模型进行综合评价与排名,为临床医生选择合适的AI工具提供参考。
1、打分规则本次打分满分为100分,每个AI大模型需要满足以下20个条目,每个条目5分,如果未满足某个条目则扣除相应的5分。具体条目见下表。

评价:能够将文本、图像等多种模态信息进行有效融合,为临床医生提供更全面的诊断依据。在面对海量的医学文献和病例时,能够快速准确地检索出与医生查询内容相关的信息。不断进行优化和迭代,能够适应临床医学领域不断发展的新知识和技术。但是医学专业知识的深度和针对性不足,在专业领域不够深入,需要医生结合自身经验进行判断。对复杂问题的分析能力有限,在处理复杂疾病诊断的问题时,可能无法提供深入解析与专业性判断。
打分依据:辅助诊断方面,满足精准理解病历文本、多模态学习辅助、持续学习和更新、诊断准确性及专业深度等条目,得25分。满足海量知识储备、准确理解检索需求、多模态信息处理、文献质量评估等条目得20分。满足多语言支持、语音交互功能、本地医疗资源整合、患者信息管理、教育和培训支持等条目,得25分。满足数据安全和隐私保护、用户友好性、定制化能力、企业级应用支持、知识整合与拓展等条目,得25分。鉴于DeepSeek在免费的情况下具备和ChatGPT相当实力且更符合中国人的应用场景,故综合考虑将DeepSeek位列第一名。
(二)GPT-4 得分:95分
评价:具备强大的自然语言处理能力,能够精准理解复杂的病历文本信息和医学文献,准确解读患者描述症状,为医生提供清晰的诊断思路。还可以结合文本、图像等多种模态信息,如分析脑部影像与病历文本的关联,为诊断提供更全面的依据。另外,能够不断学习最新的医学知识和研究成果,保持知识的前沿性,为医生提供最新的诊断参考。然而,对医学专业知识的深度理解有限,虽然知识面广,但在某些专业细节上不够深入,需要医生结合自身经验进行判断。可能存在信息偏差,由于其知识来源于大量文本数据,可能会受到数据质量和偏差的影响,导致诊断建议不够准确。
打分:在辅助诊断方面,满足精准理解病历文本、多模态学习辅助、持续学习和更新、诊断准确性、专业深度等条目,得25分。满足海量知识储备、准确理解检索需求、多模态信息处理、检索效率、文献质量评估等条目,得25分。满足多语言支持、语音交互功能、本地医疗资源整合、患者信息管理、教育和培训支持等条目,得25分。满足数据安全和隐私保护、用户友好性、定制化能力、企业级应用支持、但是知识整合与拓展等条目精度有偏差,得20分。
(三)Kimi智能助手 总分:80分评价:具备代码理解和生成能力,在临床研究中,有时需要进行数据分析、算法开发等工作,Kimi的代码理解和生成能力可以帮助医生或科研人员更高效地处理相关任务。多语言支持,能够帮助医生阅读和理解不同语言的医学文献,拓宽知识来源,促进国际医学交流与合作。知识整合与拓展,能够整合不同领域的知识,为临床医生提供更全面的视角。自然语言处理能力有限,在处理复杂的自然语言文本时,可能不如其他模型准确和高效。对医学专业知识的理解有限,在某些专业领域可能不够深入,需要医生结合自身经验进行判断。
打分:满足精准理解病历文本、多模态学习辅助、持续学习和更新、诊断准确性、专业深度等条目,得20分。满足海量知识储备、准确理解检索需求、多模态信息处理、检索效率、文献质量评估等条目,得20分。满足多语言支持、语音交互功能、本地医疗资源整合、患者信息管理、教育和培训支持等条目,得20分。满足数据安全和隐私保护、用户友好性、定制化能力、企业级应用支持、知识整合与拓展等条目,得20分。
(四)Claude 3 总分:75分
评价:具备高级的对话能力和逻辑推理功能,能够与医生进行深入的交互,帮助医生梳理诊断逻辑,分析症状与检查结果之间的关联。对复杂问题可以进行深入分析,处理复杂的疾病诊断问题时,能够提供较为深入的见解和建议。安全性较高,注重数据安全和隐私保护,能够更好地保护患者的隐私信息。但是医学知识的专业性和深度有限,在某些专业领域可能不够深入,需要医生结合自身经验进行判断。对多模态信息的处理能力较弱,主要侧重于文本信息的处理,对图像等其他模态信息的处理能力相对较弱。
打分:满足精准理解病历文本、多模态学习辅助、持续学习和更新、诊断准确性、专业深度等条目,得20分。满足海量知识储备、准确理解检索需求、多模态信息处理、检索效率、文献质量评估等条目,得20分。满足多语言支持、语音交互功能、本地医疗资源整合、患者信息管理、教育和培训支持等条目,得15分。满足数据安全和隐私保护、用户友好性、定制化能力、企业级应用支持、知识整合与拓展等条目,得20分。
(五)文心一言 总分:60分
评价:在中文语境下有优势,能够更好地理解和处理中文病历、文献等信息,准确地回答医生关于国内医疗政策、中医各疾病治疗方法等相关问题。可利用知识图谱将临床上的各种疾病、症状、检查方法、治疗药物等信息进行有机整合,为医生提供更全面的参考。AI模型依托百度在国内的大数据资源,能够更好地适应国内的医疗环境和数据特点。但是,医学知识的广度和深度有限,在国际医学知识和前沿研究成果等信息方面可能不够全面和深入。对多模态信息的处理能力较弱,主要侧重于文本信息的处理,对图像等其他模态信息的处理能力相对较弱。
打分:满足精准理解病历文本、多模态学习辅助、持续学习和更新、诊断准确性、专业深度等条目,得15分。满足海量知识储备、准确理解检索需求、多模态信息处理、检索效率、文献质量评估等条目,得15分。满足多语言支持、语音交互功能、本地医疗资源整合、患者信息管理、教育和培训支持等条目,得15分。满足数据安全和隐私保护、用户友好性、定制化能力、企业级应用支持、知识整合与拓展等条目,得15分。
(六)通义千问 总分:55分
评价:具备企业级应用支持,能够帮助医院构建内部的智能医疗系统,如智能病历管理、医疗资源调度等相关的应用场景。将多领域知识更好融合,如医学专业知识与计算机科学、物理学等融合,为医生提供更全面的知识支持。定制化能力强,可根据不同临床医生或医疗机构的需求,进行一定程度的定制化,满足个性化需求。但是,医学专业知识的深度和针对性不足,在某些专业领域可能不够深入,需要医生结合自身经验进行判断。对多模态信息的处理能力较弱,主要侧重于文本信息的处理,对图像等其他模态信息的处理能力相对较弱。
打分:满足精准理解病历文本、多模态学习辅助、持续学习和更新、诊断准确性、专业深度等条目,得15分。满足海量知识储备、准确理解检索需求、多模态信息处理、检索效率、文献质量评估等条目,得15分。满足多语言支持、语音交互功能、本地医疗资源整合、患者信息管理、教育和培训支持等条目,得10分。满足数据安全和隐私保护、用户友好性、定制化能力、企业级应用支持、知识整合与拓展等条目,得15分。
(七)讯飞星火 得分:50分
评价:语音交互优势方便医生在忙碌中获取信息,提高工作效率。能够提供丰富的相关教育资源,如在线课程、病例分析讲解等,帮助医生继续学习。本地医疗资源整合能够将当地的医疗政策、医疗资源等信息与临床医生的需求相结合,提供所需实用资讯。自然语言处理能力有限,在处理复杂的自然语言文本时,可能不如其他模型准确和高效。对多模态信息的处理能力较弱主要侧重于文本信息的处理,对图像等其他模态信息的处理能力相对较弱。
打分:满足精准理解病历文本、多模态学习辅助、持续学习和更新、诊断准确性、专业深度等条目,得10分。满足海量知识储备、准确理解检索需求、多模态信息处理、检索效率、文献质量评估等条目,得10分。满足多语言支持、语音交互功能、本地医疗资源整合、患者信息管理、教育和培训支持等条目,得15分。满足数据安全和隐私保护、用户友好性、定制化能力、企业级应用支持、知识整合与拓展等条目,得15分。
3、总结与展望综上所述,不同的AI大模型在辅助医生工作的各个领域有各自的优势和特点。DeepSeek和GPT-4在辅助诊断、文献检索、患者管理等方面表现最为出色,得分最高;其次是Kimi智能助手和Claude 3、文心一言、通义千问和讯飞星火的得分相对较低,但在某些方面也有一定的优势。医生可以根据自身需求和工作场景选择合适的大模型,以提高诊疗效率和质量,为患者提供更好的医疗服务。未来,随着这些模型的不断发展和完善,相信将为医疗领域带来更多的创新和突破。
4、免责声明本文中的排名及评价内容均基于对各AI大模型公开信息的分析和理解,仅代表个人观点,与神经时讯平台无关,且不涉及任何商业推广行为。本文内容仅供参考,不构成任何投资、购买或使用的建议。各家AI大模型始终处于不断发展的变动状态中,因此能力排名仅作为一种当前实力的打分,不排除后来居上的可能性,在实际应用中,医生应根据自身需求和具体情况选择合适的AI工具,并结合自身的专业判断进行诊疗决策。对于因使用本文内容而产生的一切后果,作者及发布平台不承担任何责任。