在过去的几十年里,全球癌症相关死亡人数仍在不断增加。其中,肝癌的发病率以及死亡率都稳居前位。根据世界卫生组织发布的全球最新癌症数据显示,2024年,我国新发肝癌36.77万例,居恶性肿瘤第4位,死亡31.65万例,居恶性肿瘤第2位,死亡率达到了12.59/10万人。
因此,肝癌的早期的有效诊断和治疗显得尤为必要。
目前,临床诊断肝癌的金标准方法是组织病理学观察,但是这种方法耗时久,也易受病理专家主观性影响,导致早期诊断准确率下降。另外,传统的蛋白质组学分析方法在肝癌诊断中也面临诸多问题。其主流方法是首先基于二级质谱(MS2)来识别样本肽段,再利用分析软件搜索数据库,识别潜在的肿瘤标志物后进而确定癌症的概率。但是,在肽段识别和蛋白质鉴定的过程中,还是不可避免地会出现某些误差,同样会对诊断的准确性产生不利影响。
为了进一步提高肝癌早期诊断准确率,深度学习模型应运而生。
近日,来自西湖大学、浙江大学等多团队人员联合开发了一种用于肝细胞癌(HCC)诊断的深度学习模型MS1Former,它能够直接使用原始MS1光谱对肝细胞癌肿瘤和邻近非肿瘤(正常)组织进行分类,而无需肽前体鉴定。
在使用过程中,研究人员仅需要先从患者身上获取少量肝脏组织样本,再经过胰蛋白酶水解处理,将其转化为肽段,它便可自动通过一系列数据处理步骤,如质谱分析、去噪、分箱和归一化等,将二维热图数据降为一维序列作为模型输入。此后,通过CNN层、Transformer编码器模块和前馈神经网络块组成的模型架构对数据进行处理和分类。
最终,在模型运行过程中,MS1Former就会基于其学习到的模式和特征,对输入的样本数据进行分类判断,输出相应的诊断结果,来判断样本是属于肝细胞癌肿瘤组织还是正常的肝组织。
为了进一步验证MS1Former在诊断精确度上的突破,研究人员对其进行了充分的模型性能评估。
当MS1Former模型利用同一数据集进行五折交叉验证时候,结果显示,它的精度、召回率等指标表现相当不错,其对于肝癌的平均诊断准确率能达到0.934,平均精度是0.926,平均召回率是0.930,平均F1分数是0.929。而把模型放到其他几个不同的数据集(WL-2023、WL-Fast、PXD002171和PXD021979)上测试时,它的准确率也还是大部分都超过0.84,甚至最高能到0.952。
不仅如此,把MS1Former模型和MSpectraAI、MaxQuant+RandomForest以及ResNet-18等其他的模型放在一起比较。在多个测试数据集上,MS1Former在准确率和AUC这两个重要指标上也都比其他模型表现得更好。通过这些评估比较,能看出MS1Former模型在肝癌诊断这个“比赛”中拥有不俗的诊断实力。
总而言之,MS1Former模型作为一个强大的端到端框架,能够直接分析原始数据,将原始MS1光谱数据进行特征化和分类,为肝细胞癌诊断提供了一种新的有效方法。这种方法不仅避免了传统方法中肽段识别和蛋白质鉴定过程带来的误差,而且能够直接处理DDA、DIA和全扫描数据,明显提高了诊断的效率以及准确性。
尽管MS1Former模型目前主要应用于肝癌诊断,但它也具有应用于其他肿瘤类型诊断的潜力,如肺癌、胃癌、乳腺癌等,只需对模型的输入数据进行适当的调整,即可适应不同肿瘤的诊断需求。相信未来通过不断优化和拓展该模型,MS1Former模型将更好地服务于医学领域。
1.Xu,W.,Zhang,L.,Qian,X.etal.AdeeplearningframeworkforhepatocellularcarcinomadiagnosisusingMS1data.SciRep14,26705(2024).https://doi.org/10.1038/s41598-024-77494-4