大数据加持下的未来疫情预测

瞰创新 2024-03-01 15:22:39

大数据加持下的未来疫情预测

Etienne Minvielle

巴黎综合理工学院管理学研究中心(I³-CRG*)医疗管理学教授、法国国家科学研究中心(CNRS)主任

在大数据时代,流行病风险预测模型为应对疫情提供了强大工具。然而,这些模型不是银弹,文章深度剖析了它们的前世今生和局限性。关键问题涉及模型的可靠性、数据量需求、实际操作指导等。例如,过去的预测往往局限于短期,而某些模型在面对未知病毒时表现不佳。此外,全国范围的模型难以反映地方差异,社会因素也使得模型无法完全指导实际行动。未来,多层次预测模型结合统一数据库可能是发展方向,但数据时效性和共享仍是挑战。我们应如何平衡模型与社会因素,以更有效地预防流行病风险?

自20世纪以来,科学家们为了预测流行病创建了多种模型,实践证明这些模型相当有效。

随着大数据的发展,新的预测模型应运而生,可用于“未雨绸缪”,将人道主义援助在最关键的时刻送达高风险地区。

然而,模型也有局限性:全国性的模型不能反映局地情况;即使结果准确,用其指导行动仍然会受到社会经济因素的阻碍。

未来,通过流行病学理论、大数据和算法的深度融合,可开发出更有效的模型。

图片来源:PI France

流行病风险预测模型,指能分析流行病出现的时间区域的数学模型,早在计算机数字算法之前就已存在。在如今的大数据时代,这些模型得到了进一步的发展,同时也引发了一系列问题:它们的预测究竟有多可靠?收集的数据多少才算足够?如何根据模型生成的结果采取疫情防控行动?

01

预测模型的前世今生

自20世纪以来,科学家开发了许多行之有效的数学模型。1927年提出的SIR传播模型是大多数流行病学模型的基础。其中S表示易感者,I表示感染者,R表示移出者(即已免疫或已死亡的人)[1]。

当感染者随着时间的推移越来越多,即新感染者的数量(R0)为正数时,一场疫情就开始了——简而言之,就是每个患者至少会传染一个人。新冠肺炎就是一个很好的例子。

除了SIR之外还有ARIMA[2]和SARIMA [3]等其他模型。此类模型以“时间序列”为基础,其出发点是假定过去的事件会再现,对季节性流感的预测很有效。

随着大数据的发展,新的预测模型应运而生,可用于“未雨绸缪”,将人道主义援助在最关键的时刻送达高风险地区[4]。近年来,这些模型在实践中证明了其有效性。例如,非洲埃博拉病毒肆虐期间,无国界医生(MSF)根据电信运营商提供的数据确定了人流量大的地区,建立防控中心 [5]。每一类新的大数据都能为开辟新的治疗方案提供参考。可见,预测算法在疫情防控中有其用武之地。

02

大数据模型的局限性

目前的预测模型偏重于短期,并不擅长长期。最近几年的疫情,无论是新冠肺炎、寨卡、西尼罗河热、奇昆古尼亚热等,都没能在爆发前被模型预测到,每次疫情都让人们措手不及。

而且,有些模型会高估疫情爆发的风险。例如,2013年1月,“谷歌流感趋势”错误地预测美国纽约将出现严重流感疫情,政府随之推出了大规模防治举措,其结果是扑了个空。类似地,美国亚特兰大的疾病控制中心曾预测非洲利比里亚的埃博拉病例将超过100万例,但时至今日也不过只有几万个病例。

不过,使用模型对已经爆发的疫情进行短期流行病学分析还是有效的。“谷歌流感趋势”在这方面表现不俗。新冠疫情期间,谷歌生命科学公司、日内瓦大学、洛桑苏黎世理工学院都成功地预测出即将出现的高峰。

模型的另一个局限性是其结果未必能指导实践。一方面,全国范围的模型结果并不能反应局地的情况。例如,新冠疫情期间,法国虽然有统计全国病例的巴斯德模型,但海外大区马提尼克岛(位于加勒比)专门开发了地方数据模型,才成功预测出了当地14天内需要的床位数。在最严重的第四波期间,模型预测需要700张,医院因此合理调配了病床,最后实际使用了600张,最大程度地避免新冠救治对其它疾病患者住院的影响。这个案例说明,宏观的预测模型必须结合局地模型,才能发挥最佳效果。

另一方面,无论什么样的模型、无论是否因地制宜、结果是否可靠,都不能单凭其预测结果左右防控工作的走向。新冠肺炎期间,许多人出于各种原因不愿接种疫苗。在中国,体弱的老年人对副作用有顾虑。而对非裔美国人和西印度群岛居民而言,则是对西方主流社会的宣传缺乏信心。这些情况是无法通过预测模型体现的。

以上案例说明,将预测结果转化为疫情防控的过程中,有多种社会经济因素共同作用,错综复杂,使用模型时必须予以全面考虑。

03

未来:多层次预测模型+统一数据库

随着大数据的发展,预测模型的效力有望得到提升。通过流行病学理论、大数据和算法的深度融合,可开发多层次预测模型,广泛涵盖卫星图像、生物数据、经济和社会数据、健康监测数据等,每一层的叠加都有助于提高结果精确度。

但多层次预测模型的前提,是时效性更强的数据收集和共享。从新冠疫情期间的情况来看,法国在这方面的努力还不够主动。建立一个统一的数据库,供专家获取数据,对于现在以及未来都大有益处,但也意味着全国范围要形成更有效的手段组织协调现有数据共享,这并不容易,但对于算法预防流行病风险不可或缺。

作者

Loraine Odot

编辑

Meister Xia

1. Weiss HH (2013) The SIR model and the foundations of public health. Mater Mat 2013(3):1–17

2. Singh RK, Rani M, Bhagavathula AS, Sah R, Rodriguez-Morales AJ, Kalita H, et al. Prediction of the COVID-19 Pandemic for the Top 15 Affected Countries: Advanced Autoregressive Integrated Moving Average (ARIMA) Model. JMIR Public Health Surveill 2020 May 13;6(2):e19115

3. Perone, G. Using the SARIMA model to forecast the fourth global wave of cumulative deaths from COVID-19: Evidence from 12 hard-hit big countries. Econometrics 10(2), 18 (2022)

4. Colston JM ‚Ahmed T, Mahopo C et al Evaluating meteorological data from weather stations, and from satellites and global models for a multi-site epidemiological study. Environ Res. 2018; 165: 91–109

5. Brinkel J, Kramer A, Krumkamp R et al. Mobile phone-based mHealth approaches for public health surveillance in sub-Saharan Africa: a systematic review. Int J Environ Res Public Healthc2014 ; 11 : 11559–11582.

0 阅读:7

瞰创新

简介:关注科技前沿动态,只生产硬核内容。