OpenAI发布医疗AI评估基准HealthBench OpenAI

游乐看科技 2025-05-14 08:01:51

OpenAI 发布医疗 AI 评估基准 HealthBench OpenAI 推出开源评估基准 HealthBench，用于衡量大语言模型在医疗场景中的性能与安全性。该基准由 262 位来自 60 个国家的医生参与设计，包含 5000 个多轮对话，每个对话均配有医生制定的评分标准，覆盖 4.8 万多个评估维度，涵盖急诊、临床数据转换、全球健康等多个领域，评估维度包括准确性、指令遵循和沟通能力等。 HealthBench 还发布了两个子集：HealthBench Consensus（34 个经医生共识验证的重要行为维度）和 HealthBench Hard（当前最高得分为 32%）。OpenAI 表示，HealthBench 将作为衡量医疗 AI 模型进展的标准，推动其在真实世界中的应用。

0 阅读：1

游乐看科技

感谢大家的关注

作者最新文章

1

OpenAI 升级 Codex：GPT-5-Codex 成为更靠谱的“编码队友”

2

OpenAI 调整 GPT-5 API 速率：调用更顺畅，但成本仍是门槛 Op

3

Google Quick Share 要支持 iPhone？APK 拆解揭示跨平

4

Apple 新 N1 芯片 Wi-Fi 7 限制曝光：仅支持 160 MHz 带

5

Claude 为团队推出「Memory」功能：AI 记得项目背景，无需重复解释

6

OpenAI 将重组为“公共利益公司”：AI 的未来更安全，还是更商业？ Op

7

微软取消 Windows Store 个体开发者注册费：门槛再降一步微软在

8

Google 推出 AI Plus：平价订阅撬动新兴市场，AI 普及加速 Go

9

Google 推出 Veo 3 视频模型新版本：竖屏、1080p、价格大幅下调，

10

📱 iPhone 17 电池容量曝光：Pro Max 首次突破 5,000 m

热门分类

科技TOP

1

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

2

翻开王腾过去从业史，在好几家手机品牌都干过，在OPPO从2008年一直到2016

3

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

4

华为的前三号员工1.任正非（工号001）华为创始人，1987年集资2.1万

5

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

6

追觅官宣造车追觅：要造最快的车！这么卷的汽车市场还有选手入场，给追觅点赞[爱你

7

iPhone17，终于亮相。今年的颜色都还不错呀，造型就是跟16基本一样。屏

8

抢iPhone17我觉得很好抢啊！你看我买Pro轻轻松松！不是做主力机用，而是为

9

最新消息马斯克突然宣布9月10日，马斯克突然宣布特斯拉正在敲定Optimus

10

一加新机Ace6系列曝光详细的硬件配置对比图和价格都有蓝厂X300和绿厂Fi

科技最新文章

1

真我15Pro发布，12+256GB售价1999元、16+512GB

2

原本打算今年把iPhone13换成iPhone17ProMax，想买25

3

5月那会，库克清了波库存，把iPhone16Pro干到了5字头，当时很多人都咬

4

我们已经分不清小米17和iPhone17。iPhone17的爆款不是桔色，而是

5

6.3英寸并不小，只是现在的手机越做越大了，事实上，用户要的不是屏幕的绝对大小

6

雷总，我恨你！本来我老婆还在用小米13，原本打算换小米16，我好不容易劝她别换1

7

有些事，身体比嘴巴诚实多了。荣耀前CEO赵明，消失快一年了，终于露面。结果全

8

才5分钟就卖光了！魅族22看来非常受欢迎啊，那么具体销量到底是多少呢？具体到

9

你可以永远相信魅族的审美[赞][赞][赞]你可以永远相信魅族的坚持[赞][赞]

10

12+256GB版本起售价2999！说实话，这个价格算不上香，但还是物有所值的。