谷歌的人工智能研究实验室DeepMind发布了一项新的研究,该研究提出了一种新的AI模型训练方法JEST(联合样本选择),该方法在训练速度和能源效率上都取得了显著提升,性能是其他方法的13倍,能效是其他方法的10倍。这种新的JEST训练方法在AI数据中心对环境影响的讨论日益激烈的当下,显得尤为及时。
DeepMind的方法与传统的AI模型训练技术有所不同。传统的训练方法侧重于单个数据点的训练和学习,而JEST则是基于整个批次进行训练。JEST方法首先创建一个小型AI模型,用于评估来自极高质量源的数据质量,然后根据质量对批次进行排名,再与一个较大但质量较低的数据集进行比较。小型JEST模型确定最适合训练的批次,然后大型模型根据小型模型的发现进行训练。
DeepMind的研究人员在他们的论文中明确指出,这种“将数据选择过程引导到更小、精心策划的数据集分布”的能力对JEST方法的成功至关重要。DeepMind声称,“我们的方法在迭代次数上比最先进的模型少13倍,在计算量上少10倍。”
上面的图表显示了JEST方法在速度和每秒浮点运算次数(FLOPS)效率上如何超越了SigLIP以及其他许多方法。
不过,这个系统完全依赖于其训练数据的质量。如果没有最高质量的人工策划数据集,引导技术就会失效。这使得JEST方法对于业余爱好者或业余AI开发者来说比其他方法更难实现,因为可能需要专家级的研究技能来策划最初的最高质量的训练数据。