文:回溯档案
编辑:回溯档案
现代农业及其相关的育种和研究工作依赖于对关键植物性状的准确观察和量化,近年来,一系列基于图像的表型方法得到了发展,其中越来越多的方法集成了机器学习和计算机视觉的最新进展,特别是深度学习。
然而,许多重要的特征仍然由人类在视觉上评分,虽然这些方法通常简单且成熟,但它们容易出现人为错误,并且可能缓慢且成本高昂。
此外,如果直接在植物上而不是在记录的图像上进行视觉评分,那么当新方法出现时,就无法重新审视结果。
棉叶毛羽的功能重要性
棉花是一种粮食和纤维作物,占全球天然纤维产量的80%。商业种植最广泛的棉花品种是棉,它在全球范围内繁殖,具有提高产量、抗虫性、纤维长度和强度、水利用效率和适应气候变化等特性。
在这些育种工作中,叶片毛羽(也称为叶片柔毛)是关键表型,仍需人工测量,叶毛是由叶表面存在称为毛状体的毛状细胞引起的。
毛状体结构因物种和组织而异,但在全球范围内,它们调节叶片蒸腾作用,影响阳光散射,并为某些昆虫提供机械和化学屏障。
在育种环境中,测量棉叶毛羽的重要性是由两种叶毛极端情况下遇到的流动效应驱动的,一方面叶毛缺失(无毛性状)或叶毛数量少与纤维产量降低有关。
叶毛很少或没有叶毛的基因型对一系列害虫也更敏感,例如铃象鼻虫(Anthonomus grandis),棉蚜(Aphis gossypii),亚洲蚯虫(Spodoptera littoralis),斑点棉铃虫(Earias fabia),绿叶蝉和茉莉(Empoasca spp.),粉红棉铃虫(Pectinophora gossypiella),烟草芽虫(Helicoverpa virescens)和几种Lygus物种。
另一方面,具有非常毛茸茸的叶子(pilose性状)的基因型更容易被银叶粉虱Bemisia tabacii等昆虫定植,当棉花被机械收获时,高毛羽也会促进杜松子酒垃圾——叶子、茎和污垢在收获材料中的积累。
杜松子酒垃圾会降低纤维颜色并增加轧花前所需的清洁量,这会对纤维特性产生负面影响并降低其经济价值,由于这些综合原因,中等水平的叶毛(多毛性状)是优良棉花品种非常理想的选择性状。
目前的叶毛评分方法
澳大利亚种植的所有棉花品种都是由CSIRO棉花育种计划开发在这个育种计划中,叶毛的毛茸茸是使用类似于Bourland等人的升序非线性1到5+量表进行视觉评分的,但成立于50多年前 。
目前,通过目视检查从植物顶部开始的第3个完全展开的叶子的下(轴向)侧,在该基因型的六种代表性植物上,对新的基因型进行评分。
这些观察是在一系列基因型的背景下进行的,这些基因型具有公认的分数,代表了规模上的大多数水平,并且在与需要评分的基因型相同的环境条件下生长。
每个观察者做出部分主观的决定,将对任何给定基因型的 6 种植物的观察结果整合到一个分数中,除了人类解释对这种方法的影响外,这种技术还依赖于阳光在毛状体上的反射,因此只在阳光明媚的日子里使用。
然而,在本研究之前,缺乏可用的替代方案意味着这种手动方法仍然是对这一农艺重要性状进行评分的最佳方法。
建议的改进,基于深度学习的分类
研究表明深度学习方法可用于量化微观但重要的表型,例如一系列植物物种中气孔的密度和/或形状,已尝试对拟南芥、大豆(最大甘氨酸)和春小麦(小麦)进行毛羽定量。
然而,这些方法需要专门的成像技术,如3D X射线计算机断层扫描或3D共聚焦激光扫描显微镜,和/或需要耗时且破坏性的样品制备。
此外,这些技术都没有利用深度学习的潜力,本研究首次提出了一种简单的成像方法,并结合深度学习方法来量化叶毛。
这种方法利用了作物育种者的专业知识,但提供了机器学习方法的稳健性和用户独立性,更具体地说,我们使用深度卷积神经网络(CNN)将输入(例如叶子图像)转换为预测(例如毛羽评分)。
这是一项称为图像分类的任务,这种方法依赖于对数据和标签的访问,在本例中这些数据和标签分别是棉叶的图像及其已知的毛羽评分。
然后以多种方式拆分整个标记数据集,以便可以训练和测试模型,并且可以调查数据集和模型的许多方面。
在这项研究中,我们假设基于图像的深度学习模型可用于在基因型和环境中准确且可重复地对棉叶的叶毛进行评分,为此,我们在受控环境和田间以及连续两个生长季节培养了27种已建立的基因型的组合。
构建了包含13,597张图像的图像库,测试了不同的神经网络架构以确定最佳方法。
最后测试了叶数的效果,增长年份和生长条件,关于我们最佳模型的预测。
本研究首次描述了一种准确可靠的叶毛评分方法,这是棉花育种计划的关键性状,我们建议我们的深度学习模型取代目前的视觉检查。
此外,这里介绍的方法可以适用于其他作物和植物物种,最后,为本研究生成的图像数据集可供研究界开发和测试新的计算机视觉方法。
现场实验—纳拉布里
研究区为半干旱地区,冬季温和,夏季炎热,夏季降雨模式占主导地位,年平均降水量为646 mm,该地点的土壤是均匀的灰色开裂粘土(美国农业部土壤分类学,典型Haplustert;澳大利亚土壤分类学。
该地点1.2 m的植物有效土壤水分在160-180 mm之间。ACRI的土壤通常为60%至65%的粘土部分,排水率低,pH值范围为8.0至8.8,有机物和氮含量低。
基因型选择
根据其已知的叶毛,共选择27个遗传多样性棉多毛棉基因型,以代表可观察到的叶毛变化的全部范围,基因型名称是匿名的。
这些基因型的各种组合在两个不同的澳大利亚地点,在田间或受控温室环境中生长,超过2年。
在种植前约12周以无水氨的形式施用氮,速度为200 kg N ha?1.实验是在11个月的休耕期之后种植的,在此之前是冬小麦作物。
所有田间实验的管理都遵循当前的高投入商业实践,完全灌溉条件,仔细控制杂草和昆虫,每10至14天,每个实验都根据其灌溉和病虫害防治的个别要求进行管理,所有地块都接受相同的管理制度。
温室实验——纳拉布里
植物在澳大利亚棉花研究所(ACRI)的温控温室中种植,分别于15年1月8日和6年2019月2日将每种基因型的约2020粒种子播种在装满土壤的13 L塑料盆中。
叶子选择和收获
叶子从主茎的顶端按升序编号,第一个完全开放的叶子称为叶一,十株植物的叶子3和4是通过在近端位置切割叶柄来收获的。
收获的叶子被放在纸袋中,并在同一天内成像,在2019-2020年的温室实验中,一些植物死亡或叶子缺失,在这种情况下,有些基因型的叶子3和/或4是从少于10株植物中收获的。
基于叶的拆分
在基于叶子的分裂中,图像根据它们来自的叶子的身份(叶3或叶4)被放入训练和测试集中,以下是本研究中生成的所有基于叶子的拆分的列表。
之前和之后的名称分别表示训练和测试条件,前两个拆分是混合叶拆分,中间两个是叶内标识拆分,最后两个是叶间标识拆分。
叶片精度 (LA)
在目视人类检查期间,一片叶子被视为一个整体并给出一个分数,叶子准确度(LA)是通过根据对测试集中存在的叶子图像的预测为任何给定叶子分配单个分数来计算的。
对于给定叶子的图像,选择最常见的分数并与地面实况进行比较以计算LA,如果给定叶子的相同数量的图像预测了两个分数,则选择最小的分数来计算LA。
结论
叶毛是一种重要的作物性状,目前由于缺乏可靠的替代品而手动评分,在这里我们介绍了一个简单的成像设置,可以轻松捕获大量数据。
我们使用这个数据集来构建HairNet,这是一个深度学习模型,可以以非常高的准确性自动对叶子图像进行评分,我们证明了 HairNet 是健壮和多功能的.
当每个叶子仅使用一个图像时,我们达到了 88.13% 的准确率,当聚合每个叶子的多个图像的分数时,我们达到了 100% 的准确率。
最后,我们研究了影响模型性能的变量,发现叶子选择不会影响模型输出,这进一步提高了模型的鲁棒性,此外不同生长季节和环境引入的变化不会对HairNet产生负面影响,只要训练集中也存在一些代表待测试条件的数据。
总体而言,我们证明了这种简单的成像设置与HairNet相结合,能够重现当前的人类评分,而不会对操作员产生偏见,同时提供诸如收集图像等优点,以便以后重新访问。
参考文献
【1】布尔兰FM,霍恩贝克JM,麦克福尔AB,卡尔霍恩SD。棉花叶片柔毛的评级系统。棉花学报 2003;7(2):8–15。
【2】布尔兰调频,格布尔EE。植物毛状体与陆地棉产量和纤维品质参数的关系.棉花学报 2017;21(4):296–305。
【3】警员GA,里德PE,汤姆森新泽西州。澳大利亚棉花品种育种和开发方法。在:詹金斯JN,萨哈S,编辑。棉花的遗传改良——新兴技术。恩菲尔德:科学出版社;2001.第1–15页。
【4】Alzubaidi L, Zhang J, Humaidi AJ, Al-Dujaili A, Duan Y, Al-Shamma O, Santamaría J, Fadhel MA, Al-Amidie M, Farhan L. 深度学习回顾:概念,CNN架构,挑战,应用,未来方向。J 大数据。2021;8(1):53.。
【5】Tennakoon SB,Hulugalle NR。作物轮作和最少耕作对灌溉棉花在眩晕中的水分利用效率的影响。灌溉科学2006;25(1):45–52。