继于今年9月开源Llama 3.2的1B与3B模型之后,Meta周四(10/24)发布了1B与3B模型的量化版,让模型大小平均减少了56%,内存使用量平均减少了41%,模型速度提高了2-4倍,还能降低功耗,以让这些模型能够部署到更多的移动设备上。
Meta说明,他们使用量化感知训练(Quantization-Aware Training,QAT)与后训练量化(SpinQuant)两种方法来量化这两个模型。前者使用LoRA调节器,于训练过程中即考虑量化的影响,着重的是模型的准确性,后者则是在模型完成训练后再进行量化,强调模型的可移植性。
不管是Llama 3.2的1B或3B模型都各自有两个量化版本,因此总计有4个量化模型,分别是Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant,以及Llama 3.2 3B QLoRA与Llama 3.2 3B SpinQuant。
Meta指出,这些量化的模型比非量化(Llama BF16)模型快得多,占用更少的内存,使用更低的功耗,同时还保持与Llama BF16版本几乎相同的精度。
量化后的Llama 3.2 1B/3B模型尽管只支持8,000个Token的脉络(原本支持12.8万个Token),但Meta的评测却发现,不管是Llama QLoRA或Llama SpinQuant等量化版本的各项基准测试,都与原来的Llama BF16版本相去不远。
Meta是与合作伙伴共同开发了量化模型,并将这些模型提供给搭载Arm CPU的高通与联发科的系统单芯片。除了CPU之外,Meta也计划通过神经处理单元(NPU)来提升这些量化模型的性能,其合作伙伴已经于开源的移动设备推论解决方案ExecuTorch上集成了可利用NPU的基础组件,也正努力于NPU执行这些量化模型。
迄今Meta已于Android OnePlus 12、三星S24+/S22及iOS设备上测试过这些量化模型,确定它们都可达到相当的准确性。