弥补医生遗漏：人工智能可改善全身疾病的诊断能力

由王胜及其同事开发的一种新型人工智能模型 BiomedParse 通过分析各种医学图像并允许使用通俗易懂的英语进行交互，增强了全身疾病的诊断能力，有望改善医疗诊断。

BiomedParse 是由王胜及其同事开发的一种新型人工智能工具，它通过处理各种医学图像和支持简单的英语查询来促进全身疾病的诊断。

人工智能在解读医学图像方面正在快速进步。在英国国家医疗服务体系 (National Health Service) 最近进行的一项测试中，一款人工智能工具分析了 10,000 多名女性的乳房 X 光检查结果，并正确识别出哪些患者患有癌症以及医生遗漏的 11 例病例。然而，狼疮和糖尿病等全身性疾病对这些系统提出了更大的挑战，因为诊断这些疾病通常需要分析从 MRI 到 CT 扫描等各种类型的医学图像。

现在，一个科学家团队开发了BiomedParse，这是一种人工智能医学图像分析模型，可以分析九种类型的医学图像，以更好地预测全身疾病。医疗专业人员可以将图像加载到系统中，并用简单的英语向人工智能系统提问。

该团队由华盛顿大学保罗·艾伦计算机科学与工程学院助理教授王胜以及微软研究院和普罗维登斯遗传学和基因组学公司的合著者组成，他们于 11 月 18 日在《自然方法》杂志上发表了他们的研究成果。

BiomedParse 是一种 AI 医学图像分析模型，可处理九种类型的医学图像，以更好地预测全身性疾病。医疗专业人员可以将图像加载到系统中，并用简单的英语向 AI 工具询问有关图像的问题。在这里，用户询问病理幻灯片的具体信息。图片来源：Zhao 等人

华盛顿大学新闻（UW News ）与王胜谈论了该工具以及人工智能在医疗保健领域的伦理和前景。

你的实验室研究什么？

王胜：我们专注于多模态生成 AI，这意味着我们致力于处理多种医学图像。以前的研究一次只考虑一种类型的图像——例如癌症研究中的病理图像。我们的新方法是综合考虑各种图像来预测全身性疾病。糖尿病等疾病可以出现在身体的各个部位——眼睛、牙齿、肾脏等。如果你只有一个可以查看眼睛图像的模型，它可能会错过有关全身性疾病的信息。

您刚刚与微软和 Providence Genomics 的研究人员共同发表了一篇论文，该论文可以处理九种不同类型的医学图像并在文本和图像之间进行转换。OpenAI 等公司和艾伦人工智能研究所等组织最近发布了可以在文本和图像之间转换的 AI 模型。医学图像有何不同？

王胜：例如，当 ChatGPT 或 Google 的 Gemini 为猫的图像建模时，该图像非常小——比如说 256 像素宽。但医学图像要大得多，可能有 100,000 像素宽。如果打印两张图像，大小差异就是网球和网球场之间的差异。因此，同样的方法不能应用于医学图像。

但 ChatGPT 非常擅长理解和总结长文档。所以我们在这里使用同样的技术来总结非常大的病理图像。我们将它们分解成许多小图像，每个图像的大小为 256 x 256。这些小图像形成类似于小图像的“句子”，但这里的基本元素不是单词或字符——而是一张小图像。然后生成式 AI 可以非常准确地总结这组小图像。5 月，我们发布了GigaPath，这是一个使用此方法处理病理图像的模型。

在我们的最新论文中，我们结合各种工具构建了 BiomedParse，它可以涵盖九种模式，让我们能够整合涵盖 CT 扫描、MRI、X 射线等的模型。

我们发现很难建立一个可以考虑所有模态的模型，因为人们可能不愿意分享所有这些数据。相反，我们为每种图像类型构建了一个模型。有些是我们自己开发的，有些是哈佛大学和微软的其他专家开发的，然后我们将它们全部投射到一个共享空间中。

我们受到了世界语的启发，世界语是一种人工语言，旨在让不同国家的使用者进行交流——类似于现在英语在整个欧洲的运作方式。我们的 BiomedParse 论文的核心思想是使用人类语言作为不同医学成像模式的世界语。CT 扫描与 MRI 非常不同，但每张医学图像都有临床报告。因此，我们将所有内容投影到文本空间。然后两张图像会相似，不是因为它们都是 CT 扫描，而是因为它们谈论的是相似的患者。

这个工具的潜在应用是什么？它能让全科医生更好地理解许多不同类型的图像吗？

王胜：是的，它有点像医学图像搜索引擎。它使非专业人士能够与模型讨论需要领域专业知识的非常专业的医学图像。这可以让医生更好地理解图像，因为例如，阅读病理图像通常需要很高的专业知识。

即使是经验丰富的医生也可以使用我们的模型更快地分析图像并发现细微的变化。例如，他们不需要逐个像素地查看每张图像。我们的模型可以先给出一些结果，然后医生可以专注于那些重要的区域。因此，这可以使他们更有效地工作，因为我们只需 0.2 秒即可自动提供非常一致的结果——与专家人工注释相比，准确率超过 90% 。由于这是一种检测生物医学物体位置并计算细胞数量的工具，因此 90% 的准确率通常可以让我们正确检测物体并预测下游疾病。但医生的指导仍然是必要的，以确保正确使用这些 AI 工具。这是一种增强他们技能的方式，而不是取代他们。

医生可以使用此功能吗？

王胜：我们已经发布了一个演示。接下来，我们希望与华盛顿大学医学院合作，进一步开发该模型，然后在征得患者同意的情况下将其部署到华盛顿大学医学院系统中。这是华盛顿大学一项非常大的努力。我们收集了大量数据，涵盖人体的不同部位、不同的模式和不同的疾病。因此，我们希望能够推进全身性疾病的检测。

显然，生成式人工智能系统存在各种问题。文本模型会产生幻觉信息，返回错误答案并捏造事实。图像生成器会扭曲事物。将这些数据应用于像医学成像这样敏感的领域，是否有顾虑？

王胜：实际上，我们还有另一篇论文正在提交，专门针对医学领域生成式人工智能的伦理问题。其中一个问题是幻觉。例如，你可以将胸部 CT 图像提供给某些人工智能模型，并询问牙齿问题是什么。这个问题没有任何意义，因为我们无法从 CT 扫描中判断牙齿问题，但一些现有的人工智能模型实际上会回答这个问题，显然这是错误的答案。

另一个问题是道德问题。我们可以给生成式人工智能一张牙科图像，然后问：“这个病人的性别和年龄是多少？”这是私人信息。或者你可以要求它重建这个人的脸。所以我们正在努力检测这些不道德的问题，并确保模型拒绝回答。

将生成式人工智能应用于医学有什么让您感兴趣的地方？

王胜：我曾经用人工智能进行药物研发和基因组学研究，但我发现这是一个相当有限的领域，因为开发一种药物可能需要 5 年或 10 年的时间，而最耗时的部分是药物测试——小鼠试验、人体试验等等。我转向医学是因为我觉得人工智能在分析图像数据和图像以及文本方面非常强大。

我也在研究药物再利用。这意味着，例如，一种用于治疗视网膜疾病的药物，即使没有被设计用于其他用途，也可以治疗心力衰竭。因此，如果这种药物已经用于治疗视网膜疾病，并且我们发现它对心力衰竭有效，我们可以立即应用它，因为我们知道它是安全的。这是使用人工智能研究全身性疾病的潜在好处之一。如果我们发现将视网膜图像与心力衰竭图像结合起来，视网膜图像可以预测心力衰竭，我们可能会发现这种药物。这是一个长期目标。

参考文献：“跨九种模态的生物医学对象联合分割、检测和识别的基础模型”，作者：Theodore Zhao、Yu Gu、Jianwei Yang、Naoto Usuyama、Ho Hin Lee、Sid Kiblawi、Tristan Naumann、Jianfeng Gau、Angela Crabtree、Jacob Abel、Christine Moung-Wen、Brian Piening、Carlo Bifulco、Mu Wei、Hoifung Poon 和 Shen Wang，2024 年 11 月 18 日，《自然方法》。DOI：10.1038/s41592-024-02499-w

来源：都柏林圣三一学院

免责声明：康加号致力于健康常识分享，内容根据公开资料编辑，版权归原作者；如有侵权请在线留言删除。文章旨在介绍健康科学进展，不能作为治疗方案；如需精准健康指导，请至正规医院诊疗。