看不见的DNA潜伏在环境中的任何地方

日新月异的前沿 2025-02-22 16:42:53

环境中到处都是栖息在其中的生物的 DNA。对其进行分析可以提供地球变化的实时视图。

在过去的几十年里,对环境中脱落的 DNA 进行测序的能力取得了巨大进步。现在,挑战在于弄清楚这一切意味着什么。 (图片来源:Marilyn Perkins 的拼贴画;图片来自 Qweek 和 I Like That One via Getty Images)

伊利湖中央漂浮着一个水疗中心。它有一个桑拿浴室、一个蒸汽浴室,甚至还有一个装满雪的小隔间。楼上有豪华休息室、一个巨大的图书馆、著名艺术家的精选艺术收藏品以及带落地窗的全景演讲厅。乘客们在侍酒师的簇拥下,在高级餐厅忙着用餐。

在下面的一层甲板上,有一个原始的、最先进的实验室,里面装满了高科技设备,两艘价值数百万美元的潜水器可以将乘客带到 1,000 英尺(300 米)深处。一组科学家正在筛选水样并实时分析它们,观察浮游生物在水中漂浮时的基因指纹。

维京人 (Viking) 的 Octantis 游轮上的研究人员正在研究环境 DNA (eDNA),即漂浮在水中、漂浮在空气中或在土壤中徘徊的遗传物质片段。每次生物穿过环境时,它都会脱落极小的遗传物质。

科学家们在几十年前首次注意到这种遗传物质的痕迹,但多亏了强大的测序技术,他们现在开始分析 eDNA 以表征食物网,揭示失踪已久的濒危物种的位置,并显示捕食者是否潜伏在人类和野生动物发生冲突的地区。

但这项技术有一个问题:它产生的数据太多了,以至于研究人员很难分析所有数据。现在,科学家们正在努力将人工智能 (AI) 与尖端测序相结合,以快速识别给定生态系统中生物类型和数量的变化。最终,这些信息可以提供地球如何运作的实时视图,并使我们能够更快地适应生态变化。

“人工智能将能够以我们其他技术无法提取 [信息] 的方式提取 [信息],”美国国家海洋和大气管理局 (NOAA) 太平洋海洋环境实验室海洋分子生态学项目的研究负责人 Zachary Gold 说。“更快、更好、更快的数据使我们能够做我们以前做梦都想不到的事情,”。

维京人 Octantis 远征南极洲的照片。这艘船上设计用于在大流行期间处理 COVID-19 测试的实验室空间已被重新用于分析环境 DNA。(图片来源:维京人)

环境数据的宝库

“环境 DNA”或“eDNA”一词是在 1980 年代的一项研究中创造的,该研究描述了一种从土壤样本中获取 DNA 的技术。但直到 2000 年代,快速准确的 DNA 测序仪才变得广泛可用且价格合理,使 eDNA 分析变得实用。

新一代测序 (NGS) 现在使科学家能够非常快速地分析 DNA——现在只需一天即可对整个人类基因组进行测序。对于 eDNA,NGS 意味着可以从单个水样中鉴定出数千个物种。测序技术非常先进,但分析并从中得出有意义结论的能力需要大量的计算能力,并且可能需要科学家数年的时间。

物理样本可能需要几天到一个月的时间才能完成测序,然后一旦序列返回,就必须下载并“清理”数 GB 的数据,即由计算机检查是否存在错误、重复或格式问题。只有这样,才能分析经过验证的数据集。

这是 AI 可以带来变革的下一步。

“研究人员可以花费数月时间浏览这些数据,以试图理解和识别这些数据中最有趣、最有力的故事和资产,但 AI 可以在几秒钟内完成,”Gold 说。

在 Octantis 上的实验室工作的研究人员。Viking 与 NOAA 合作,在游轮经过不同水域时对浮游植物进行实时分析,提供其生态系统的实时快照。(图片来源:维京人)

漂浮实验室大军

Viking 开始研究 eDNA 的部分原因是大流行。该公司最初被要求对 COVID-19 使用聚合酶链反应 (PCR) 检测,但一旦该要求被逐步淘汰,其 Octantis 船上的设备被重新用于实时检测水样。这家邮轮公司于 2020 年与 NOAA 合作,科学家于 2022 年加入了维京人的五大湖探险队。

现在,这艘 673 英尺长(205 米)的游轮上的科学家们分析了它们所经过的水域中的浮游植物,每次船访问同一地区时都会提供生态系统的快照。该团队表示,与昂贵且不定期的传统科学考察相比,旅游船可以节省时间和金钱——无论如何,游轮都会进行这些航行——而且食物要好得多。

浮游植物的显微镜图像。浮游植物构成了许多海洋食物网的基础,并产生了地球上一半的氧气。浮游植物丰度或多样性的变化可以揭示海洋健康的变化。(图片来源:NOAA 国家海洋局)

在他们的漂浮实验室中,与 Viking 合作的研究人员现在对浮游植物进行测序。“它们是地球上生命的关键,”加州大学圣地亚哥分校斯克里普斯海洋研究所(Scripps Institution of Oceanography)的研究员艾莉森·库西克(Allison Cusick)说,他在维京人的一个船舶实验室工作,在南极洲等偏远地区研究eDNA。浮游植物是大多数海洋食物网的基础,它们通过光合作用产生地球上大约一半的氧气。Cusick 说,浮游植物物种之间的差异令人震惊——两种类型之间的多样性可能比人类和真菌之间的多样性更大。

水中浮游生物类型的变化是生物多样性和海洋健康的关键指标——变化会在食物网上反弹,带来潜在的毁灭性后果。

IFREMER(法国国家海洋科学与技术研究所)的超级计算机工程师 Benoit Morin 说,使用 eDNA 分析来揭示物种之间的进化关系以及它们所采取的不同进化路径——例如,当一个物种出现时和特定基因被引入时——可以帮助科学家预测气候变化将如何影响不同的物种。

“通过回顾过去,我们可以尝试了解未来,”Morin 。

eDNA 的“Enigma 项目”

为了真正强大,像 Viking-NOAA 合作这样的项目需要将人工智能整合到 eDNA 分析中。

人工智能已经被用于从相机陷阱和自动监控系统的大型数据集中寻找潜在的新物种。它还被用来重新发现失落的物种,包括极度濒危的德温顿金鼹鼠 (Cryptochloris wintoni),在使用 eDNA 追踪之前,它已经 80 多年没有被发现了。

但是,要充分发挥这些努力的潜力,需要改进 AI 技术并将其整合到 eDNA 分析中。

科学家收集到 eDNA 样本后,他们通过条形码对其进行分析,条形码可以寻找单个物种或生物体,也可以一次识别多个物种。条形码是一小系列独特的 DNA 序列,用于通过与在线参考数据库进行比较来识别生物体。

法国 École Pratique des Hautes Études(高级研究实用学院)的数学工程师 Letizia Lamperti 正在开发一种机器学习系统,以使用这种条形码根据样本中生物体的类型和数量来揭示给定环境的健康状况。反过来,这些信息可能指向可能的修复方法。

例如,如果水样中产生毒素的浮游植物有所增加,则有可能将这些变化归因于为浮游植物提供食物的农业径流,Cusick 说。

2023 年,Lamperti 和她的同事发表了一项研究,表明神经网络——模仿人脑过滤和处理信息方式的多层机器学习算法——比其他根据 eDNA 对密切相关的生物体进行分组的统计方法做得更好。但就像面部识别技术一样,人工智能可能更擅长检测丰富的物种,为此有很多“训练”数据,但在发现稀有生物方面效果较差。

一位科学家在 Octantis 实验室处理 eDNA 样品。(图片来源:Hannah Osborne)

最近的其他几项研究指出了人工智能在 eDNA 研究中的巨大潜力。例如,一项研究发现,AI 可以识别样本中 90% 的未知物种,即使没有来自密切相关生物体的相似序列可用于比较。

AI 可以以无与伦比的规模识别新发现的物种。进化关系可以在眨眼之间确定。对环境变化的监测和规划可能会发生变化。例如,通过快速分析 eDNA 样本,AI 可以实时提醒游泳者水道中存在食脑变形虫或鲨鱼,或者在有害藻华威胁公共卫生之前预测它们等事件——类似于我们现在在手机上收到天气警报的方式。

因此,从理论上讲,可以快速重定向资源,以便在问题成为问题之前解决问题。

Gold 说,这个目标是可以实现的,但需要多长时间将取决于为此开发 AI 所投入的资源。

物种词典

目前,AI 缺少一些重要的东西:组织大量用于发现关键模式的优质数据。这些数据需要放在一个地方,作为参考数据库或基于其 DNA 的物种词典。

“我们需要参考数据库来执行物种识别,”Lamperti 告诉 Live Science。“问题是我们没有它。”

为了识别物种,AI 需要通过对大量数据进行训练来学习单个和密切相关物种的关键特征或条形码。但生物多样性数据集不在公开可用的存储库中,它们也不是经过精心策划的标准化格式,可以馈送到经过训练的定制 AI 系统中。“eDNA 还没有为 AI 做好准备,”Gold 说。

Gold 估计,仅在过去十年中,就在美国收集了大约 40,000 个 eDNA 样本,但其中很多样本无法获得。他说,它可能“在某人的阁楼上或某人的科学论文的补充方法中”。

为了得出有用的结论来帮助我们保护和管理环境,AI 需要从基线数据库中学习,该数据库可以捕获我们感兴趣的环境中的生物多样性。这是一项艰巨的努力。“这是数百万美元;这是大量的人们的时间,“Gold 说。

Morin 目前正在执行这项任务,但这是一个缓慢且资源密集型的过程。他和他的同事们正在通过 ATLASea 项目构建一个遗传“词典”,该项目旨在对 4,500 个海洋物种的基因组进行测序。这些信息将存放在科学界的开放访问数据库中。IFREMER 现在正在与数据基础设施公司 NetApp 合作,对收集的大量信息进行分类。

Gold 说,有了开发数据集的资金,AI eDNA 工具可以“非常快”地准备就绪。“我毫不怀疑我们正在做的事情在技术上并不困难。只是我们没有为其提供资源。如果我们真的想做这件事并大规模动员起来,我毫不怀疑,到 [2028 年] 在洛杉矶举行的下一届奥运会之前,我们可以建立好工具、资源和网络,并准备好这样做。

Gold估计,如果投资和资源继续以目前的速度发展,这将是一个 “缓慢的涓涓细流”,我们将在大约15年内达到这一目标。但他乐观地认为,这个时间表可能会更快。“很多东西并不难;它只是利用现有的工具,“Gold 说。“我们只需要为自行车指明正确的方向。”

0 阅读:8
日新月异的前沿

日新月异的前沿

感谢大家的关注