海量、多模态生物医学数据,让存储基础设施迎来“高考”

科技正能量 2023-06-27 18:15:49

生老病死是无法改变的自然规律,但人类一直没有停止过对疾病的抗争,这不是对死亡的恐惧,而是对生命的敬畏。

现代医学的发展史,就是一部科学的发展史,两者总是相辅相成。医学的发展让人类的寿命大大提高,让更多科技成果得以涌现,同样,科学的发展也赋予了医学更精准有效的治疗手段。

而随着人类文明进入到信息化时代,生物医学作为现代医学的分支和新兴的跨学科领域,也迎来快速的发展。随着生物医学大数据的增长,生物医学的发展也进入了崭新的阶段。苏州大学的生物医学研究,正通过高通量测序技术和AI技术,不断挖掘数据的价值,探索生命的奥秘。

01

高通量测序:下一代测序技术

“基因”始终带着神秘色彩,它是DNA上的特定部分,而DNA是支持着生命的基本构造和性能,储存着生命的种族、血型、生长、疾病等信息的生命密码,人类大约有2.5 万个基因来实现生命功能。

基因组学通过对生物体所有DNA和基因的研究,在改变着人类的未来,针对遗传出生缺陷的产前检测,肿瘤基因检测,病毒和细菌的基因研究等,通过基因组测序都能找出“元凶”。而这门学科的关键,是其背后的海量数据。作为一项天然数据密集型业务,基因组测序可以基于更多的样本数据,快速研发新药或提供精准的诊疗服务。

但是最初的基因组测序技术的效率却并不高,人类第一次完整基因组测序耗费了13年之久,且成本巨大。

苏州大学基础医学与生物科学学院特聘教授,博士生导师李玉梅博士说,“在生物医学领域,我们应用最多的就是高通量测序数据。”

有别于第一代测序技术,高通量测序技术是第二代测序技术,一个最显著的变化就是速度很快,过去要花费十年的测序时间,高通量测序技术只需要不到一天就可以完成,而且价格也非常低。

所以,高通量测序技术是对传统一代测序的一次革命性改变,可以一次对几十万到几百万条DNA分子进行序列测定,因此也被称为下一代测序技术。“有了海量的数据,便可以分析人的遗传突变、基因功能等,进一步分析基因突变的原因,突变与疾病之间的关系,就可以有针对性地去开发新的诊断方法和治疗药物。”李玉梅说。

高通量测序技术的快速发展,改变了人类研究生命蓝图的方式,同时也带来了爆炸式增长的测序数据,目前数据存储和传输都是亟需解决的问题。

02

直面生物医学的数据驱动

随着技术的成熟和成本的下降,生物数据通量急剧提升,这必然会带来诸多挑战。

以高通量测序为例,通过测序技术可以解析生物DNA序列特征,包括遗传变异检测、序列图谱构建等。尤其在人类健康研究中,需要了解基因的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗、基于生物大分子结构及小分子结构的药物设计等。

第一个挑战就是数据量巨大。以基因组测序为例,从最初的人类基因组,扩展到其他动物、植物、远古生物、细菌、病毒的基因组,且目前已经涉及到肿瘤、遗传病等疾病的检测。因此,产生的数据种类和数据量是异常庞大的,通常以PB为单位保存。这就要求在系统中必须配置海量存储,以满足测序数据的存放。

第二个挑战是存储的稳定性。李玉梅说,“我们对存储的基本要求,就是要稳定,尽量不在存储和运行的过程中出现任何问题。”

其实,这个简单的逻辑,在测序领域,要真正做到,却是“堪比登天”。

此前,清华大学构建了一个RUSH系统,用于小鼠大脑的分析。这个实验环境中,有28个1200万像素的摄像头,不间断地高速拍摄小鼠脑图。要求是每秒钟拍摄30帧,并且要连续拍摄72个小时,且任何一帧的数据都不能丢。

浪潮信息存储产品线分布式存储总经理姜乐果说,“当时在跟清华大学的老师沟通时,他们起初认为国内的设备,很难达到这样的一个效果。浪潮就在工厂里,按照清华大学的要求,搭建了一个1:1还原的镜像环境,持续跑了三个月,做到了数据完全不丢失,最终得到了清华大学的认可。”

第三个挑战是数据的处理效率。一个人的基因组大概是3个GB,包含了30亿个碱基。在全基因测序过程中,为了保证基因数据的完整性,需要平行测序30次,当最终测序完成后,全基因组数据将达到100GB左右,所以对数据分析的效率提出了更高要求。

03

解铃还须系铃人

实际上,基因组测序场景本身,就是一次对全方位存储能力的“检验”过程。

第一,由于测序的整个过程不允许被中断,这就要求支撑测序应用的存储系统,具备极致的稳定性和可靠性;

第二,测序数据分析工作中,对存储系统的性能提出很高要求;

第三,在数据归档阶段,需要将海量基因数据长期、完整、安全的保存起来,存储系统的采购成本也是一个很大的挑战。

李玉梅说,“生物医学研究,背后是很大的数据量,因此我们对计算的需求就变高。同时随着测序的价格降低,数据越测越多,对存储的成本控制能力也提出了要求。”

解铃还须系铃人,解决生物医学数据驱动的关键,还在于存储设备本身。

浪潮新一代分布式存储平台AS13000G7就是一个很不错的选项。

在总体架构设计上,其支持五合一架构的融合存储,购买一套存储,即可享有块、文件、对象、大数据、视频五种服务。对于基因测序场景不同处理阶段,数据格式转换和数据拷贝会降低整个数据处理流程效率的问题,给出一个很好的答案。

在高性能方面,基于Intel至强四代可扩展处理器,支持PCIe 5.0高速总线、DDR5高速缓存,搭载自研NVMe SSD,通过盘控协同实现了端到端联合调优。相较上一代产品,分布式存储AS13000G7性能整体提升40%。

在成本优化上,AS13000G7的单一集群最大扩展至10240节点,单一文件系统支持千亿文件,通过智能算法,存储空间利用率达到94%以上,高利用率其实等于帮助用户节省了成本。

海量的生物医学数据,不断对存储系统提出新的挑战,同时也在加速存储技术的革新。从基因组测序到探索生命健康的密码,生命不息,创新不止。

0 阅读:8

科技正能量

简介:相信文字有力量改变世界,坚持科技改变生活的正面角度。