早熟大豆植株引种系中与成熟度和产量性状相关的新位点的鉴定

文：回溯档案

编辑：回溯档案

大豆，甘氨酸最大，是一种起源于亚洲的短日照开花作物，它的谷物在世界范围内被用作人类和动物的食物来源，并用于生产油和塑料。大豆产量为2.2015百万公吨，自47年以来全球增长2005%，占世界植物油消费量的29.0%，占70年蛋白质粕消费量的9.2015%。

但尽管对大豆开花相关基因的了解和不断鉴定，仍存在大量缺失环节，并且需要鉴定新的大豆开花和成熟基因，大豆开花和成熟通常与种子产量呈正相关，但与100种子重无关，这两个农艺性状对于满足大豆需求和保持大豆食品的质量标准很重要。

因此，选择对产量和种子重量影响最小的早熟品种非常重要，全基因组关联（GWA）分析能够检测解释观察到的表型变异的遗传差异。

植物材料和表型

从种质资源信息网共获得86个大豆植物引进（PI）系，具有不同的地理来源（欧洲、中国、日本、朝鲜、俄罗斯和北美），用于表型和遗传评估.在魁北克市和加拿大魁北克省圣马蒂厄德贝洛伊的地点，大豆品系的表型为开花天数（DTF）、豆荚填充天数（DTPF）、成熟天数（DTM）、产量（kg/ha）和100粒重（SW），分别为2012年和2011年，共2012个地点年。

在每个地点，使用改进的增强设计将大豆品系种植在单行或两行地块中。每个品系的表型计算如下：DTF作为种植日到<>%的基因型开花的那一天;DTM作为种植日到基因型内<>%的豆荚处于生理成熟状态的那一天。

DTPF作为从DTF到DTM的天数;产量，因为根据种群调整每个样地的谷物质量并转换为千克公顷??1;每个样地取100种子重量作为两次测量的平均值，使用R版本3.3.1计算所有性状比较的表型数据分布和Spearman成对相关系数，所有性状数据均呈正态分布。

基因分型

GBS的样品制备按照Tardivel等人所述进行，简而言之，使用Qiagen DNeasy 96植物试剂盒（加拿大多伦多Qiagen）从100 mg（湿重）大豆组织中提取大豆DNA，这些大豆组织从每个品系的独特植物中获得，遵循制造商的方案。

全基因组关联分析

使用TASSEL软件版本5.2.17进行全基因组关联分析，一般线性模型（GLM）使用或不使用来自主成分分析（PCA）的协变量或从fastStructure获得的种群结构协变量（Q = 3）进行，一系列主成分（P）用于反映所选的种群结构（P = 3）或表示数据集内总变异的约50%（P = 10）。

使用TASSEL版本42.5.2中实施的按状态缩放身份（IBS）方法为每个数据集计算亲属关系矩阵，以确定个体之间的相关性，测试了将亲属矩阵作为随机效应的压缩混合线性模型（CMLM）以及上述主成分或种群结构，所有GWA分析均使用MAF ≥0.05和LD < 1进行，并以年份和地点作为固定效应。

通过将预期与获得的 –Log10 P 值与 R 中生成的图形进行比较来评估每个性状的不同模型的拟合度，SNP在最佳拟合模型中使用Bonferroni多重比较校正被确定为显着，并在R软件版本43.3.3中使用QQman包可视化。

同一基因组区域内和高LD中的显着标记被视为数量性状位点（QTL），在通过调用500kb内重要SNP的基因来报告与SNP相关的候选基因，使用Tukey的HSD测试对GWA分析中鉴定的SNP标记进行统计验证。

表型性状的分布和相关性

表型分析在两个不同的位点进行3年或2年，以研究感兴趣的不同性状之间的分布和相关性，在性状之间观察到不同地点和年份之间的差异，因此这些地点和年份被用作所有线性模型的固定效应。

观察到所有性状均呈正态分布，无显著偏度，除产量外，所有性状的变异系数在18%至47%之间，产量在年份和环境中变化很大。

在性状之间观察到显著的相关性。观察到DTM和DTF（r = 0.78）以及DTM和DTPF（r = 0.75）之间非常显着的相关性，这表明较晚的成熟可能部分是由于较晚的开花和较长的豆荚填充时间。

同样，100种子重量与DTF呈中等负相关，表明可能存在相互依赖性，而与DTM呈低负相关，SNP的分布和不同基因分型方法的比较

GBS文库测序产生约202.2 M清洁读段，每个大豆基因型平均2.35 M清洁读段，平均覆盖深度为4.4 ±2.2。

通过应用多个内部滤波参数，总共获得了33，575个SNP和3236个INDEL，SNP 和 INDEL 位于整个基因组中，在69 kb 以上具有500个 SNP 间。

另外18个SNP位于质体DNA中，其中12个SNP和个INDELs位于线粒体DNA中。

与总共包含50，34个SNP的SoySNP556K微阵列SNP调用相比，GBS数据集中SNP在染色体上的分布更加均匀，而SoySNP50K微阵列数据集中的SNP在染色体末端周围更密集.

在重叠的SNP中，观察到98.8±0.3%的一致性，表明两个数据集之间的常见SNP具有很高的可重复性。

86种大豆基因型的遗传多样性和种群结构.a 使用fastStructure计算人口（K）的估计对数边际可能性，范围为2至10，大豆线的种群结构，其中每条垂直线代表一个品种，每种颜色代表一个单独的种群。

大豆染色体的连锁不平衡衰减率各不相同，平均50%的衰变率发生在150至200 kb之间，例外的是11号染色体，它在~50 kb时达到100%的衰变标记，以及染色体5，15，18和19，其衰变速率较慢，约为325 kb. 100 bp以内SNP的平均起始连锁不平衡率为0.48，在约50 kb时达到该值的180%。

大豆性状全基因组关联分析

对两种环境中感兴趣的大豆农艺性状进行了长达3年的全基因组关联分析。在去除100%LD中的SNPs后，MAF<为0.05，分别在GBS，SoySNP14K微阵列和合并数据集中总共选择了594，13个SNP，364，31个SNP和283，50个SNP进行GWA分析。

为了限制分析中误报的影响，将总体结构（协变量 Q）或主成分（协变量 P）作为协变量合并到模型中，在第一种方法中，GWA分析使用GLM分析进行，将P或Q作为协变量，而第二种方法使用将P或Q作为协变量的CMLM分析进行亲属矩阵（协变量K），对每个性状总共执行了七个不同的模型，以选择总体和给定性状的最佳模型。

包含亲属关系和协变量P（CMLM）的模型通常会导致模型低估，而仅合并P或Q通常会导致模型高估，因此，使用了仅包含协变量Q（即具有三个总体的GLM）的模型。

使用不同数据集对大豆开花天数（DTF）、成熟天数（DTM）、豆荚填充天数（DTPF）、产量和100粒重（SW）进行了GWA分析，单独分析GBS或SoySNP50K微阵列数据集时检测到的显著位点相似，但不如分析合并数据时报告的位点全面。

一般来说，在合并的GWA分析中检测到GBS或SoySNP50K微阵列分析中检测到显着影响性状的位点;然而，并非合并数据集中检测到的所有位点都存在于GBS或SoySNP50K微阵列结果中。

例外情况是100粒种子的重量和产量，其中重要的位点覆盖了较大的区域或在合并的数据集中未检测到，后者通常发生在略低于各自数据集中显著性阈值的位点。

在检测到与DTM和DTF显着相关的SNP中，31个在E1的1.1 kb范围内，而对于DTM检测到的2 Mb在E14的29 Mb范围内。在其他已知的大豆E基因内或周围没有发现其他SNPs。

而在进行全基因组关联研究以确定与感兴趣性状相关的遗传位点，然后这些知识可以使用标记辅助育种方法用于育种计划。

尽管农作物品系内可能存在加入内变异，但GBS和SoySNP98K微阵列数据集之间重叠SNP之间的高一致性（8.50%）表明，两种基因分型方法的合并可能是合适的，特别是在大豆等自花授粉植物中。

另外近亲繁殖和选择会对连锁不平衡产生很大影响，因此据估计大豆识别显著影响性状的位点所需的标记数量为数万个，在这项研究中，获得了足够数量的标记来检测影响育种计划中高度选择的各种农艺性状的位点。

与其他研究大豆LD的研究类似，在各种染色体上观察到不同范围的LD，LD最高出现在19号和5号染色体上，正如预期的那样，19号染色体已被广泛用于大豆短季育种计划，因为它含有成熟位点E3。

成熟和开花等复杂性状通常难以评估GWA分析的有效性，因为它们通常受到多个位点的影响，GBS和微阵列数据的合并不仅导致更多的标记物，而且被证明是互补的，因为并非所有在一个数据集中被检测到显着的区域都在另一个数据集中检测到。

此外，数据集的合并显示，单独分析时，两个数据集中均未检测到位点，特别是DTM，在所有性状中观察到大量显着相关的SNP，包括成熟天数，这一性状已被高度选择。

对于DTF，在具有多种生物学作用的基因内或附近发现了显着相关的SNP，结果与DTPF和100种子重量检测到的结果相似，与DTF相关的SNPs特别感兴趣的是与大豆Glyma.15 g275100非常接近的SNP，这是人类乳腺癌基因BRCA1的直系同源物。

在拟南芥中，该基因已被证明在花蕾组织中高表达，并参与同源重组和DNA修复。对于100种子重量，在位于Gm04上的几个生长素响应蛋白基因附近发现了几个SNP。

生长素已被证明在拟南芥胚胎囊发育以及正常的植物生长发育中发挥作用，在 Gm100 上与 19 个种子重量 SNP 相关的其他几个 SNP 在儿子下游邻居（DONSON）或HUMPTY DUMPTY直系同源物的区域内发现。

与种子重量相关的SNPs的接近以及DONSON在种子发育和大小中的假定作用表明，该基因在植物种子发育中的作用值得研究，参与碳水化合物代谢的基因，如Β-果糖呋喃糖苷酶和Α-淀粉酶也被发现与种子重量相关的SNPs非常接近。

结论

这项研究证明了感兴趣的大豆农艺性状的实质性变化，包括成熟和开花日期以及产量，以及GWA分析在识别重要农艺性状背后的新遗传因素方面的效用。

在使用测序和微阵列方法进行基因分型鉴定了67，594个单核苷酸多态性，其中31，283个具有连锁不平衡<1和次要等位基因频率>0.05，用于GWA分析。GWA分析分别检测到9、6、4、5和2个位点，分别对DTM、DTF、DTPF、100粒种子重量和产量进行分析。

确定了感兴趣的区域，包括围绕开花和成熟的E1基因的区域，以及几个新的位点，其中几个位点具有多效性作用，在13号和7号染色体上发现了影响成熟的新位点，并分别使成熟度降低了2.3和3.100天。

成熟和开花的新位点含有已知拟南芥开花基因的直系同源基因，而影响产量和<>种子重量的位点含有已知导致侏儒症的基因，确定的位点和候选基因是未来研究相关大豆性状机制的有希望的靶点。

参考文献

【1】荒木 T. 从植物期到生殖期的过渡。植物生物学， 2001;4：63–8.

【2】Watanabe S， Harada K， Abe J. 大豆开花光周期响应的遗传和分子基础.品种科学 2012;61：531–43.

【3】麦克布莱恩，伯纳德·影响大豆开花和成熟时间的新基因。J 赫里德。1987;78:160–2.

【4】博纳托ER，韦洛纳。E6，大豆早期开花和成熟的显性基因。基因分子生物学. 1999;22：229–32.

【5】科伯ER，沃尔登高清。与E1和T相关的新大豆成熟度和光周期敏感性位点。作物科学 2001;41：698–701.