死亡和数据科学:看机器学习如何改善临终关怀

KenSci是一家为医疗行业开发机器学习风险预测平台的公司，该公司最近发表了一篇关于预测临终死亡率并改善护理的论文。

这篇论文针对的是一个非常棘手的话题，对患者的最近六至十二个月内的死亡风险进行预测，它已经被人工智能促进协会（Association for the Advancement of Artificial Intelligence）接受。处于危急关头的是，在个人生命最后一年的护理花费了2050亿美元。但这不仅仅是成本的问题。以下内容摘自《死亡与数据科学：预测生命的终结》（《Death vs. Data Science: Predicting End of Life》）这篇论文。

使用姑息治疗服务的美国人的人数持续增长，估计已经有170万人，即死亡人数的46％（NHPCO 2016）。然而，这些服务被利用得太晚了：2016年病患在临终关怀医院停留时间的中值只有23天。此外，28％的临终关怀患者在入院后7天内出院或死亡（NHPCO 2016）。在Christakis及其同事的工作中，他们认为临终关怀医师觉得80-90天的临终关怀护理最适合患者及其家属的需求（Christakis 1997）。对死者家属进行的调查表明，对临终关怀的满意度与他们对临终关怀转诊及时性的看法相关（Teno等人的研究。2007）。最后，那些在那些经常遇到住院病人死亡的医疗机构中，紧急医护人员和重症监护护士等医护人员的职业倦怠比例非常高（Embriaco 等人的研究。2007）。因此，最终得出的结论是，及时和适当的临终关怀护理会影响Quadruple Aim医疗保健的所有方面（质量、满意度、成本节约和提供者满意度）。

我们正在组织一系列关于数据科学家及其使用的方法的文章，作为这个系列的一部分，我们“抓住了”KenSci的首席技术官及该论文的作者之一——Ankur Teredesai，这篇论文在这个新兴的技术类别中得到了认可。

你用什么数据集来建模？

预测六至十二个月内的死亡率风险是一项非常复杂的挑战。在美国，这是一个价值2050亿美元的问题。在KenSci，我们有一个旨在提高机器学习的规模和运营效率的平台，以解决诸如此类有巨大社会影响的问题。在这个特定的环境中，我们已经有了根据以前的努力预测六至十二个月内死亡率的机器学习模型。我们与美国西北部的两家主要的医疗系统进行了合作，并重新训练了我们的模型，并且用新数据创建了更多的模型。

来自Health System A的数据包含的是患有心力衰竭（HF）病史的患者群体，其中包括4,888名病患，以及他们的各种电子病历数据，这些数据包括：

人口统计学上的特征

病人停留的时间长度

总体成本相关特征

具体的费用相关特征（住院病人、门诊病人、家庭健康、临终关怀、熟练护理机构）的再入院信息

通过医疗保健通用程序编码系统（Healthcare Common Procedure Coding System，包括救护车、医疗设备和假肢等）对所执行的程序进行跟踪

Health System B的数据包含了48,365名患者，这些患者患有各种类型的疾病。Health System B只有医疗索赔数据可用。

这篇论文详细介绍了用于建模的数据元素。

大数据技术如何应用于你的研究？这项工作缺少了哪些梦想中的数据集？

我们使用了微软的Azure云来运行一些底层组件。我们还与现有的企业大数据投资无缝集成，以确保医疗保健行业可以从大量数据源中受益。

KenSci与世界各地的医疗保健合作伙伴进行了合作，收集了从EMR（电子医疗记录）、社会心理学数据到医疗索赔和财务信息等各种数据集，从而实现了对患者和整个医院人口状况的纵向观察。该系统基于云，因此可以在新的数据源可用时连接到这些数据源。

对六至十二个月的死亡率进行预测，并根据据此获得的见解帮助医生将患者转为姑息治疗，在这种情况下的预测是一项非常复杂的工作。诸如人口统计学和共病的数据提供了良好的结果，但诸如医生输入或处方中的变化之类的额外数据源经常也可以提供额外的信息。归根结底，机器学习中从未有过一个理想的“梦想中的”数据集。EMR中包含的关于一个患者的信息倾向于少于10％。在日益联系的世界中，我们将继续生成额外的数据资产，从而增加数据驱动型决策的复杂性。机器学习的优势在于能够逐步学习，并通过更多的数据和反馈进行改进。

你是如何建立这个模型的？在建立它的过程中，人类输入起到了什么作用？

我们在脑海中建立了具有辅助智能的模型。我们在KenSci开发的每一种模型都建立在这样的理念之上：人的输入将成为提供护理的每一个步骤的关键因素。KenSci机器学习（ML）平台有利于可解释的机器学习模型，这些模型可以解释其正确性并进行验证，然后KenSci的医生和临床医生不仅仅会验证机器学习模型的输出，还会帮助确定临床工作流中的输入特征，然后再将其集成到任何工具中。整个过程非常严格，我们一直在寻找方法使其更具辅助性，同时还要保持严谨。

这个话题是一个非常敏感的话题，对于用算法决定护理的做法自然会引发种种担忧。什么方法最适合用来决定在临终护理过程中应该采取哪些护理措施呢？

在KenSci，我们致力于通过提高医院和护理人员的效率来提高患者治疗结果的质量。使用人工智能算法可以提供谁可能会生病、如何生病、何时生病，以及在整个护理持续过程中如何有效地服务患者方面的见解。虽然人工智能仍然是医疗保健的新丁，但它的智能可以被看护人和医院系统用来提高效率。医生永远是决策者，算法不会介入医生和患者之间的关系。广义的智能是我们需要使用的一种工具，但是当涉及到医疗保健和临终问题的时候，决定权在医生和患者手中。

在KenSci，我们将人工智能视为辅助智能，即它旨在帮助正在使用该技术的专家，而不是要替代他们。这也适用于这里讨论的临终关怀转变的问题。这些模型旨在帮助医生注意到可能疏忽掉的属性，因为机器学习可以在分层中注意大量变量，因此人工智能可以提供额外的知识以做出更明智的决定。

如果没有EHRs，这项研究是否可能？您如何处理医疗系统中尚未结构化的数据（即纸张上的数据或者是更糟糕的一些数据）？

EHR数据是必要的，但不足以在医疗领域中产生深刻的见解和预测。尽管非结构化数据可以为预测模型增加有用的附加信息，但即使是医疗系统内一些简单的问题也仍未得到解决，因为即使是结构化的数据也还没有发挥它们全部的作用。结构化数据提供了足够的丰富性来提供描述性统计数据，并为再入院风险、死亡率预测、急诊部门利用率预测等问题提供足够好的预测模型。然而，EHR和其他结构化数据尚未发挥的其最大潜力。

这些预测从本质上来说是因人而异的，既然如此，你是如何在宏观层面上处理像成本节约这样的话题的呢？

尽管临终关怀本质上是个性化的，但预测高成本患者队列并确定导致高成本和高利用率的模式对医院和卫生系统来说是至关重要的。KenSci的解决方案可以通过分析纵向的医疗记录来帮助确定高成本人群，通过对疾病进行建模并预测生命终点来提高姑息治疗的利用率，从而预测未来高用量人群。

然而，一个像这样的系统可以做的可不仅仅提供生命终点预测这么简单——它还可以让医护人员探索患者的风险状况，并且预测潜在的再入院可能。虽然降低成本对于医疗系统显然极具吸引力，但是这样的系统也能够在各个领域中为患者提供更好的护理。在各种情况下，机器学习系统可以帮助减少医生的职业倦怠，协助人员配置并提示出可能需要进行医疗干预的患者。从机器学习系统中获得的见解可以帮助看护者就客户对于临终关怀的愿望与其进行知情程度更高、更为积极主动的交流。

世良情感网

死亡和数据科学:看机器学习如何改善临终关怀

科技行者