Credit: Pixabay/CC0 Public Domain
从智能聊天机器人到可以写整篇文章的应用程序,人工智能(AI)正日益成为我们生活中无处不在的一部分。瓦赫宁根大学研究中心(Wageningen University & research)的研究助理迈克尔·舍恩(Michael Schon)正在设计一种人工智能工具,可以对植物基因组上的非编码RNA进行比较。该工具预计将加速和简化未来开发具有更强抗旱或抗病能力的新植物品种。
蛋白质是生物体中细胞的组成部分。制造这些蛋白质的指令是由基因中的RNA发出(编码)的。除了这些编码RNA,一些基因可以产生非编码RNA:换句话说,不包含制造蛋白质的指令的RNA。
Michael Schon说,这种类型的RNA在生物体的发育中也起着重要的作用。“例如,它们可以激活基因,或者相反,关闭基因。这将影响植物的外观和它所具有的特性。某些重要的非编码rna也决定了植物是否成熟。”
同一家庭内的亲戚
非编码RNA也可能潜在地揭示为什么一个植物物种属于一个特定的科,但却有不同的特征。在之前的研究中,Schon鉴定了拟南芥(拟南芥)的非编码rna。这种植物被植物科学家用作模式生物。
拟南芥属于十字花科,与西兰花、花椰菜和大头菜等重要作物一样。这个家族也被称为芥菜或十字花科。然而,很难将拟南芥的非编码rna与芥末科其他植物的非编码rna进行比较,因为之前对这些物种的研究主要集中在蛋白质编码基因上。”
非编码RNA的有限注释
这意味着植物之间的比较需要对每种作物的非编码RNA进行单独的基因注释。通过Veni项目,Schon正在寻找利用相关物种的知识来识别非编码rna的新方法。
“芥菜科植物的基因组序列超过200个。每个基因组都以一个大型文本文件的形式存储,该文件由数百万个字母组成,这些字母代表DNA分子的碱基(a、C、T和G)。由于这些基因组中的非编码位没有被正确编目(注释),因此不可能对分散在这堆数据中的所有非编码基因进行比较。为此,我们需要新的战略和工具。我正在努力发展这些。”
每个基因组的一小部分
第一个问题是知道在基因组的哪里去看。舍恩正在开发的工具之一是他称之为基因草图的东西。为了找到不同基因组的对应部分,他使用了一种叫做最小化草图的方法。
“最小化草图背后的想法是,你只需要看一小段dna——一个草图——而不是整个序列,”Schon说。“这意味着你只需要关注每个基因组的几千个字符就可以进行比较,而不是数百万个。
最小化草图以前被用来建立灵长类动物进化树,其中包括人类和他们的近亲。事实证明,我们可以用不到1%的基因组绘制出一幅非常精确的祖先家谱。因此,最小化草图是一种非常有效的方法来估计DNA片段之间的相似性,因此它也应该对比较芥菜家族的基因组有用。”
与ChatGPT相同的技术
在你知道往哪里看之后,下一步就是了解你在看什么。Schon计划在GeneSketch中使用的技术与目前在其他人工智能工具(如ChatGPT)中使用的技术相同。
“这就是所谓的‘变压器’技术,”Schon说。
例如,你可以让一个变形金刚来填补一个句子中缺失的单词。最初,变压器给你一个随机的单词,因为它以前从未见过单词。但如果你用数以百万计的例句来训练它,它会通过注意文本中的模式来慢慢学会猜出正确的单词。
“经过训练,像ChatGPT这样的大型语言模型在某些任务上表现得非常出色,比如回答问题或从一种语言翻译成另一种语言。变形金刚不仅可以被训练学习人类语言,还可以学习DNA的语言,DNA有自己独特的模式。我正在研究一种模型,可以检测许多不同物种的DNA模式,并将这些模式翻译成我们人类可以理解的语言。”
模型必须经过训练
Schon将为GeneSketch训练转换器,使其关注基因在不同物种间的变化,尤其是非编码基因。但他预计在这个过程中会遇到一些挑战。
“一个重要的问题是可靠性。变压器是一项相对较新的技术,它会犯错误。例如,ChatGPT在许多不同的文本来源上进行了训练,但如果你问它一个在训练期间从未见过的主题,它需要编造一些东西。您希望它能根据它所看到的模式得出一些合理的结论,但这绝不是保证。显然,您希望避免无意义的输出。你训练一个变压器越多,它产生的无意义的东西就越少,但是训练会花费大量的时间和金钱。是完全从零开始训练模型更好,还是在现有模型的基础上构建模型更好?两种方法我都在尝试。”
基因草图的潜力
Schon希望在项目的第一年(2023年10月开始)之后有一个GeneSketch的原型。他计划用它来为整个芥菜家族创建基因注释。
Schon说,这个工具不仅对研究部门有用,而且对农业工业也有用。“例如,它可以为种子育种者提供一种快速了解作物及其野生近缘种DNA的方法。通过更多地了解几个世纪以来作物是如何发展出独特性状的,育种者可以在改善性状方面做出更明智的决定,比如让作物更能适应气候变化。因此,潜在的影响可能是巨大的。”