[编者按]在上海市科学技术委员会资助(项目编号:22DZ2304300)下,澎湃新闻联合《世界科学》对获得国家及上海市科技奖励的获奖成果进行科普化报道。
本篇报道围绕2020年度上海市自然科学奖一等奖项目“动力学驱动的数据科学理论和方法研究”展开。该奖项由中国科学院分子细胞科学卓越创新中心陈洛南研究员领衔的研究团队获得。
中国科学院分子细胞科学卓越创新中心研究员陈洛南
“人不能两次踏进同一条河流。”变动不居的世界被哲人的这句话夸张地描述着。
如何来描述一个物体的状态或动力学?
英国物理学家牛顿1687年在其出版的《自然哲学的数学原理》中给出了三条完整的定律。于是,当一个物体具有了质量,那么它的速度、加速度以及它承受的作用力都会得以明确。
研究物体运动变化及其驱动力的学科被称为动力学。而动力学模型作为一种理论框架,被用于一个系统中物体或粒子的状态、行为。
那么,一个没有质量的数据,或抽象的复杂系统,可以被找到“动力学”特征或规律吗?
更重要的是,这有什么用?
“我们发展了这个领域。我们把动力学思想和方法引入到了主要基于统计学的数据科学中。”中国科学院分子细胞科学卓越创新中心研究员陈洛南说。
此前,他领衔的研究团队,包括复旦大学林伟、华南理工大学刘锐、中国科学院数学与系统科学研究院研究员王勇等共同完成的“动力学驱动的数据科学理论和方法研究”荣获2020年度上海市自然科学奖一等奖。
他们将自己原创的研究体系,命名为“动力学刻画的数据科学”,它主要包含预测、预警、因果、AI(人工智能)等几个方面,并应用在计算系统生物学、生物过程临界分析、肿瘤细胞转移等疾病的早期预警和地质灾害预警等多学科的基础研究中。
商业杂志《哈佛商业评论》(HarvardBusinessReview)曾刊登文章称,数据科学家是21世纪最“性感”的工作。
而早在1974年,计算机科学家、图灵奖获得者彼得·诺尔(PeterNaur)就提出,数据科学是将数学和统计学、专业编程、高级分析、人工智能和机器学习与特定主题专业知识相结合,获取隐藏在组织数据中的信息。
“(但)现在的数据科学大都还是基于静态的统计学规律,缺少动态的刻画机制。”陈洛南表示。
他认为,动力学能够反映系统的动态机制、因果关联等更本质的东西。
而这恰恰是随着大数据和AI的发展,目前数据科学在解决诸多现实问题时凸显的局限性。
中国科学院分子细胞科学卓越创新中心研究员陈洛南将自己团队原创的研究体系,命名为“动力学刻画的数据科学”。
“未病”预警:在疾病恶化前来个“急刹车”
体检时,人们往往是检查当前的身体状况,来判断自己是否患病。
但陈洛南认为,现阶段的体检,主要是反映人们是否已患病,无法预知未来,比如,人什么时候将要患病,甚至极端地来说,“还剩多长时间”。
陈洛南团队发表的系列论文中指出,复杂疾病过程有一个临界状态,也就是说许多疾病的恶化是突然从前期阶段转变到疾病阶段,存在一个“突变点”。
在研究中,患者的状态大致可划分为三种——“正常状态”“前疾病状态”(pre-diseasestate)和“疾病状态”。其中,对于很多慢性疾病来说,第三个阶段或状态的治疗难度非常大,很难再使病情回到相对正常状态,所以几乎处于非可逆阶段。而前疾病状态对应了有效治疗的关键时间节点。
“我们将复杂生物系统看作一个随时间演化的动力系统,其临界处就相当于数学上动力系统的分岔点。”陈洛南表示,但根据现在医学常用的静态对照式研究,会发现前疾病状态与正常状态没有明显区别。“这两个阶段的静态指标一般都没有显著变化,因此难以量化或难以区分前疾病状态,走不到‘科学’。”
理论上,如果能构建数学模型,就可以依据分岔理论(bifurcationtheory),反映疾病这一复杂系统的动态临界过程。“但实际的复杂系统大多没有精确的数学模型,”他说,“没有模型,只通过观测数据,找到临界点,这就是我们创新的地方。”
陈洛南带领的研究团队借助高通量技术,基于临界慢化(criticalslowing-down)、临界协同波动(criticalcollectivefluctuation)和分岔理论,提出了一种新颖的基于网络的无模型方法,即使仅有少量的样本,也能根据其“动力学”临界特征和规律,检测到复杂疾病的预警信号。
陈洛南介绍,通过观测高通量技术测量的分子等变量,来计算不同变量间的相关性,如果发现其中的一组变量的相关性突然增强,波动增大并与其他变量间的相关性减弱;当同时满足上述三个条件时,这组分子变量的动态变化就可能成为反映该复杂系统向疾病状态变化前的指标,称该组分子为整个系统的主导模块或“动态网络生物标志物”(DNB,DynamicalNetworkBiomarker)。
“DNB是状态评估,告诉我们离临界还有多远。”他说,如果发现快到临界了,就能及时干预,抑制系统向疾病状态转变。
目前,该研究方法已成功运用到肿瘤细胞转移前兆诊断、自免疫疾病再发预警、糖尿病临界检测及药物拮抗动态过程等研究,还被国内外研究者应用到生态系统和金融系统等的风险分析和临界预测。
陈洛南团队发表的《复杂生物过程中关键节点及关键因子检测——基于动态网络标志物的复杂疾病早期预测》一文指出,通常,一个生物系统或一种复杂疾病往往被建模成一个非线性动力系统或动态网络。这样,复杂疾病的发展过程可看作是这个复杂动力系统沿着时间轴演化的过程。
“一叶知秋”
时间序列是按一定时间间隔排列的随机变量的集合。陈洛南团队于2020年发表的论文表明,基于观测的数据,尤其是短期时间序列(Short-TermTime-Series)数据,做出准确预测,对神经科学、大气科学、工程等学科和领域的发展十分重要。但已有的预测方法,如统计回归方法和机器学习方法等,需要足够长的时序测量,无法对短期时间序列进行预测。
前述论文表示,短期时间序列里的高维可观测数据蕴含着丰富的时间信息,可以用来呈现、预测复杂系统的动态变化。换句话说,可以“一叶知秋”。
但是由于数据量少、缺乏统计规律,“要将高维数据里折叠的时间信息‘展开出来’,这需要新的理论和方法。”陈洛南说。
陈洛南团队基于延迟嵌入理论和广义嵌入理论,建立了STI(Spatial-TemporalInformationTransformation,空间时间信息转换)方程,可将高维变量的关联信息转化为目标变量的时间演变,并在此基础上提出了RED(Randomlydistributedembedding,随机分布嵌入)、ARNN(Auto-ReservoirNeuralNetwork,自动储蓄池神经网络)和ALM(AnticipatedLearningMachine,预期学习机器)等方法,能针对目标变量进行多步预测,从而对复杂的非线性动力系统作出更精准的短期预测。
不同于传统的基于统计学的机器学习,STI方程预测方法从非线性动力系统理论出发,为基于动力学的机器学习或深度学习开辟了新路径。
目前,该方法在对基因表达数据集、股票数据集、交通数据集、台风卫星云图数据集等的预测中,相较于其他方法,都取得了更精准的短期预测结果。
陈洛南表示,目前正结合DNB预警和STI预测方法推进对地质灾害的预警,未来还将推广到更多应用场景。
2023年9月5日,国际学术期刊《美国科学院院报》(PNAS)在线发表了中国科学院生物化学与细胞生物学研究所陈洛南研究组与华南理工大学数学学院刘锐研究组合作的题为《通过时空信息转换学习,基于空间大地测量数据的地震预警》(Earthquakealertingbasedonspatialgeodeticdatabyspatiotemporalinformationtransformationlearning)的实时地震前兆预警最新研究成果。该研究实现了83%真阳性和0.98%假阳性的预警精度。所探测的预警信号精度显著优于现有的10种方法,实现提前预警平均6-7天。因此,该方法在地震灾害监测领域具有重要应用和参考价值。该研究结果也显示强震与弱震可能有不同的动力学因素或产生机制。
不一样的研究:开创新学科
“我们现在做的工作,与现行研究方式不一样。”陈洛南说,“我们的工作发展了这个领域。”
现有的疾病预警的论文,主要是通过Case-Control(病例对照研究),来看统计量的差异,依然是静态的对照研究。如果能将静态的对照式研究,推进到动态的过程式研究,“信息更互补,从而看到原来看不到的东西”。
目前,陈洛南团队也在进行预测与预警方面的研究。他表示,尽管已提出了基础的方法,仍存在很多未解决的难题。
他认为,噪声干扰和系统本身的强随机性都是很大的挑战。另外,目前提出的预测与预警方法实际应用场景仍十分有限,如何获得更好的泛用性,也是亟待解决的问题。“此外,如何能从高维数据中准确地找到DNB也是个问题。”陈洛南说。
他说,“我们提出了这种概念和方法,最终需要大家一起来完善。”
“人不能两次踏进同一条河流。”
陈洛南还透露,团队有一项未病项目研究,并推动了国家科技“未病”专项的立项。
他介绍说,“未病”思想是中医的重要理念,是疾病发生发展中的关键状态,在该状态的合理干预可以实现病程的逆转。但“未病”发展过程有明显的动态性和复杂性,中医意义上的“未病”很多没有被量化,缺乏科学意义上的概念或标准,严重制约了“未病”的客观辨识和疾病的早诊早治。陈洛南带领的研究团队希望建立“未病”的量化表征,特别是通过DNB框架中的临界理论,量化未病状态,从而使未病的概念“科学化”,也为早期预警与早期干预提供理论依据和量化方法。
陈洛南表示,未病概念需要科学化。科学化就是国际化。这也利于中医的现代化、国际化。
另外,他带领的研究团队在构建辨识因果网络的新型算法、发展脉冲神经网络高效训练工具等方面也取得了重要突破。“我们这个学科非常交叉,欢迎各个学科的人才一起来发展它。”陈洛南说。