继deepseek成本优势以及50美元就可以做一个媲美deepseek性能模型后,字节跳动豆包大模型Foundation团队近期提出的UltraMem架构是一种将计算和参数解耦的稀疏模型架构,旨在解决现有MoE架构在推理时的高额访存问题。UltraMem通过优化模型结构和value检索方式,实现了显著的性能提升和成本降低。

主要特点
• 优化模型结构:UltraMem将单一的memory layer拆分为多个小memory layer,并以固定间隔分布在Transformer层中。同时,引入skip-layer操作,使得memory layer的输出可以加到后面某层Transformer层的输出,从而实现并行计算。
• 优化value检索方式:通过Implicit Value Expansion(IVE)方法隐式扩展稀疏参数,并引入virtual memory和physical memory的概念,进一步提升检索效率。
性能提升
• 推理速度:相比MoE架构,UltraMem的推理速度提升了2-6倍。
• 推理成本:推理成本最高可降低83%,显著降低了显存和部署成本。
• 扩展能力:UltraMem在相同参数和计算量下,随着模型容量的增加,性能超过了MoE,展现出更强的扩展能力。
实验结果
实验表明,UltraMem在151M、680M、1.6B三个尺寸的激活参数上均表现出显著的效果优势。此外,UltraMem在增加稀疏参数时,推理时间几乎不变,而MoE则有显著增长。
意义
UltraMem架构为开发更高效和可扩展的语言模型提供了一个新的方向,有望推动大模型在实际应用中的广泛部署。内容仅供参考,不构成投资建议。点赞加关注,永远不迷路。