世良情感网

OpenAI 发布医疗 AI 评估基准 HealthBench OpenAI

OpenAI 发布医疗 AI 评估基准 HealthBench OpenAI 推出开源评估基准 HealthBench,用于衡量大语言模型在医疗场景中的性能与安全性。该基准由 262 位来自 60 个国家的医生参与设计,包含 5000 个多轮对话,每个对话均配有医生制定的评分标准,覆盖 4.8 万多个评估维度,涵盖急诊、临床数据转换、全球健康等多个领域,评估维度包括准确性、指令遵循和沟通能力等 。 HealthBench 还发布了两个子集:HealthBench Consensus(34 个经医生共识验证的重要行为维度)和 HealthBench Hard(当前最高得分为 32%)。OpenAI 表示,HealthBench 将作为衡量医疗 AI 模型进展的标准,推动其在真实世界中的应用 。