文/陈根
恐龙在地球上生活了大约1.6亿年。它们为了食物和生存领地而战,想方设法不被捕食者吃掉。和人类一样,它们也会照顾幼崽,并试图保护自己的后代免受捕食者的侵害。恐龙存活了数千万代,但6000多万年前,恐龙却突然从这个蓝色星球上消失。
而在恐龙灭绝6000多万年后,凭借一块有史前蚊子的琥珀,科学家从蚊子血中获得了恐龙的基因,让灭绝的恐龙得以复活。这就是经典科幻电影《侏罗纪公园》的故事。
“侏罗纪公园”的关键,其实就是基因,可以说,是基因存储了恐龙的生物信息,让恐龙的故事在今天重新展现。而如果人类没有发现这块有着史前蚊子的琥珀,那么,浩渺的宇宙中很可能没有物种会知道恐龙曾经在地球上存在过。
那么,对于人类来说呢?虽然我们今天还在这个星球好好的生活着,但没有人知道,人类的明天有多久?如果人类灭绝,以后会有其他物种知道人类曾经生活在这个蓝色星球上吗?如果未来的物种没有找到人类遗骸,那么,人类在科学、艺术、文化和历史上所取得的一切成就都将永远消失,就像从未存在过一样。
有没有什么办法能够储存人类文明的记忆?还真的有,那就是DNA存储技术,这也是今天科学家们正在探索的数据存储的新方式。
存储人类全部的数据?为什么科学家要研究DNA存储?因为DNA存储的信息密度远超我们的想象。如果我们把毛囊细胞放大再放大,就能看到毛囊里单个细胞的DNA,而如果把这些DNA拉直,这些DNA将比一米还长,其中存储了30亿碱基对,信息密度远远超过人类制造的一切存储介质。
所谓碱基对,就是DNA(脱氧核糖核酸)分子中的两个核苷酸相互配对的基本单元。而DNA分子是由四种不同的碱基构成的——腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶。这些碱基以特定的方式相互配对,形成碱基对,其中腺嘌呤总是与胸腺嘧啶配对,而胞嘧啶总是与鸟嘌呤配对。这种特定的配对方式是DNA双螺旋结构的关键特征,这确保了DNA的稳定性和复制过程的准确性。
我们可以用两个二进制数字来表示一个碱基,而这个碱基就占了两位的存储空间,位也叫比特,是信息的最小计量单位,所以一个碱基占据的空间就是两位,在计算机中8位就是1字节(byte),1024字节就是1KB,1024KB则是1MB,以此类推,一条30亿个碱基对DNA的数据量就是60亿比特,换算一下大概是7GB,而它仅仅只有几纳米。即便要把人类掌握的所有数据都存储下来,也只需要大概一公斤的DNA,一个冰箱就够了。
要知道,从磁带到USB,过去各种各样的记忆媒介已经在被开发出来。不过,今天,更多的数据被保存在数据中心里。一个存储量为 10 亿 GB的大型数据中心,占地可达数个足球场,建设和维护成本高达 10 亿美元。也就是说,光是储存这些海量数据,就需要花费巨大的空间及金钱成本。
并且,现在数据产生的速度,远远要超过我们生产这些存储介质的速度,所以必须要有新的介质来解决这个难题。而DNA就是这个新的介质。
DNA不仅可以储存信息,而且信息的衰减和损耗几乎为零。就像人类从恐龙基因中读到恐龙生存与灭绝的故事一样,如果DNA保存在干燥的环境中,远离光线,并在稳定的温度下,可以稳定数千万年之久。相比之下,纸张会腐烂,硬盘会降解,甚至连石头也会风化,DNA却可以彻底无视这些物理过程,保留人类文明的知识和历史。
一块有史前蚊子的琥珀早在上个世纪末,就有科学家尝试DNA存储信息,艺术家 Joe Davis 和哈佛大学的研究员,将一副名为《小维纳斯》(Micro Venus)的图案存储到了 DNA 短链中。这个图案编码简易,白色的地方标记为 0、黑色的线条部分标记为 1,文件大小只有 35字节,用了 28 个核苷酸长度的 DNA 链条来存储。
2000年,美国生物学家把一段信息“刻”进了细菌的体内,这段信息就是爱因斯坦著名的质能方程“E=mc2”。2003年,又有科学家把迪士尼动画片中的一段音乐“刻”进了细菌体内。到了2010年,当首个人造细胞诞生时,带领该项工作的美国基因学家卡耐基·文特尔则把所有参与该项目的科学家的名字“刻”进了人造细胞的DNA上。
一直以来,科学家们在DNA储存技术研究中,展现了可以将文书档案、影片资料等几乎所有东西储存在DNA的能力。不过,DNA储存技术一直有一个大问题,就是所有的过程中依然需要众多的人力。
好在微软公司和华盛顿大学最终打破了这一技术瓶颈。在微软和华盛顿大学的研究中,他们设想了DNA存储的另一个功能:随机读取。
常见的 DNA 测序技术中,必须要将所有的碱基串一次性读取完,才能够获得信息。要么不读取,要么全读取。如果只想要数据中的某一个小片段,就会非常麻烦。2016 年,微软公司和华盛顿大学的科学家发表了一项研究,可以在 DNA 已经存储的信息中搜索到指定的图像,定位后,用酶来复制所需的 DNA 片段,然后只需要读取这一小段就可以。
随机读取是解决了,解读问题又随之而来,要让 DNA 存储离商用更进一步,还需要解决合成速度和成本问题。
现在合成速度是每秒存储上千个字节(KB),成熟的云存储方案已经有每秒千兆字节(GB)以上。这意味着,编写 DNA 的速度还需要提升 6 个数量级。如何让提升数据处理量?就像并行计算能够提升数据处理速度,科学家希望 DNA 在合成时也可以并行多条,同时处理。
2021 年,微软开发出首个纳米级 DNA 存储器,能够在每个平方厘米的区域上,同时合成2650条碱基序列。这个新的技术把原来同时合成碱基序列的数字从个位提升到了千位。这个吞吐量,让DNA合成速度变成了每秒兆字节(MB)。
更大的吞吐量,也就意味着更低的成本。现在 DNA 存储的成本是每万亿字节(TB)8 亿美元。尽管磁带存储成本已经降到了每万亿字节 16 美元以下,看起来,DNA存储似乎毫无竞争力。但现实生活中的大型数据中心的维护成本极高,还要定期更新硬件;DNA 存储密度大、体积小、可以长时间不变质的优势就变成了降维打击。Twist Bioscience 最近在一份市场报告中强调,这种技术能够帮助科技企业在“大规模、低功耗”情况下更有效地部署。
可以说,和过去相比,随着生物技术的发展,DNA存储费用已经呈现大幅下降的趋势。就拿基因测序的费用来说,最早的人类基因测序花了将近 27 亿美元的成本和十五年的时间,但是十五年后,今天,我们只要缴纳1000 美元的费用给企业,就可以在几周内拿到基因分析结果。技术已经变得相当大众化了。考虑到指数型科技的成长速度,或许,DNA储存很快就可以步入商业化阶段。
短期来看,大数据与人工智能的大爆发,促使人类必须找到更多的新兴算力之源,而DNA储存的创新技术,很可能就是人类未来的智能新大陆;而从更长远的人类文明的发展来看,DNA存储技术或许就是那一块有史前蚊子的琥珀,默默书写和记录人类这一物种在这个星球留下的传奇。