周三(10/23)发表在《自然》期刊的一份研究,介绍了能将大量图片及照片存储在DNA之中的新方法,该方法有望提供一种能满足高密度数据存储需求的可扩展性解决方案。虽然DNA作为数据存储的媒介将会是未来极具市场发展潜力的诱人应用,但如果要大规模应用,还需要更多的研究。
DNA包含了所有生物体的遗传指令,由称为核苷酸(nucleotides)的化学基本组成组件构成。构成核苷酸的数十亿含氮盐基(nitrogen bases),包括腺嘌呤(adenine)、胸腺嘧啶(thymine)、鸟嘌呤(guanine)和胞嘧啶(cytosine),决定了从指甲生长速度到头发颜色等各方面。但这些碱基对(base pairs)模式也可以编码数据,这意味着可以用它来存储从密码表到高分辨率视频等各种数据。
以甲基化编码取代合成DNA,让DNA特定部被读取为0与1
最近来自中国北京大学、德国斯图加特大学及美国亚利桑那大学研究人员组成的研究团队,成功将一幅16,833位元的中国拓本图片和一张252,504位元的猫熊照片存入DNA中,随后成功无误地从DNA中取回这些文件。他们并将研究成果发表在《自然》期刊上。
事实上,在此之前研究人员就曾通过合成DNA存储数据。2018年,由华盛顿大学与微软研究院的科学组成的研究团队成功将35个文件(总计超过200MB的数据)编码并存储于超过1,300万个DNA寡核苷酸(oligonucleotides)中,证明此存储系统的可行性。
最新研究和2018年研究的最大差异在于,研究人员是在不进行重新合成DNA的情况下完成了这项存储壮举,过去通过合成DNA的存储方式,不论在投资时间和成本上皆不符合经济效益。
反观这次研究团队改采甲基化(methylation)方法来编码分子。甲基化是一种酶将甲基(由一个碳原子和三个氢原子组成的分子)添加到DNA链上特定位点的过程。这使得该团队能对DNA片段(其与DNA特定部分相连接)进行组合,进而让这些DNA部分可被读取为0或1。
比主流方法更快、更便宜,无专业人员也能无碍完成编码
新研究论文共同作者、北京大学研究员钱珑表示,在我们的方案中,DNA串行充当地址,而字母当下的修改状态代表数据。要写入特定资讯,只需为每个地址选择0/1状态,这些状态将自动对应DNA,这个过程称之为“排版”。排版之后,数据会同时复制到一条DNA链上,这一过程称之为“印刷”。
钱珑进一步指出,他们所采行的策略有可能比主流方法便宜且快上好几个数量级,这可能让DNA存储今后具备商业可行性。
该研究论文并指出,研究团队成功以每次反应写入350位元的频率一共编码了近300,000位元。不仅如此,整个过程由60名无专业生物实验室背景经验的志愿者完成,展示了该方法的无障碍特性。
面临两大挑战:无法以PCR复制DNA,定序完数据库才能访问
华盛顿大学研究人员Carina Imburgia和Jeff Nivala评论指出,以DNA作为数据存储媒介具有巨大潜力,因为1克的分子就可以存储高达215,000 TB的数据。
然而,两位研究人员也指出上述的新研究面临两大挑战,首先,该团队方法中至关重要的甲基,无法通过聚合酶连锁反应(PCR)这个复制大量DNA的标准方法来进行复制。
另一个挑战在于,许多应用程序需要随机访问内存(RAM),以便从数据库中检索并读取数据子集。然而,在表观遗传资讯位元系统(epi-bit system)中,必须对整个数据库进行定序后才能访问任何文件的子集,即使通过纳米孔定序(nanopore sequencing,针对核酸进行定序的第三代定序技术)的效率也不高。总而言之,为了访问任何数据,你必须对整个数据库进行定序。
(首图来源:Unsplash)