Meta发布Llama3.21B/3B模型的量化版

继于今年9月开源Llama 3.2的1B与3B模型之后，Meta周四（10/24）发布了1B与3B模型的量化版，让模型大小平均减少了56%，内存使用量平均减少了41%，模型速度提高了2-4倍，还能降低功耗，以让这些模型能够部署到更多的移动设备上。

Meta说明，他们使用量化感知训练（Quantization-Aware Training，QAT）与后训练量化（SpinQuant）两种方法来量化这两个模型。前者使用LoRA调节器，于训练过程中即考虑量化的影响，着重的是模型的准确性，后者则是在模型完成训练后再进行量化，强调模型的可移植性。

不管是Llama 3.2的1B或3B模型都各自有两个量化版本，因此总计有4个量化模型，分别是Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant，以及Llama 3.2 3B QLoRA与Llama 3.2 3B SpinQuant。

Meta指出，这些量化的模型比非量化（Llama BF16）模型快得多，占用更少的内存，使用更低的功耗，同时还保持与Llama BF16版本几乎相同的精度。

量化后的Llama 3.2 1B/3B模型尽管只支持8,000个Token的脉络（原本支持12.8万个Token），但Meta的评测却发现，不管是Llama QLoRA或Llama SpinQuant等量化版本的各项基准测试，都与原来的Llama BF16版本相去不远。

Meta是与合作伙伴共同开发了量化模型，并将这些模型提供给搭载Arm CPU的高通与联发科的系统单芯片。除了CPU之外，Meta也计划通过神经处理单元（NPU）来提升这些量化模型的性能，其合作伙伴已经于开源的移动设备推论解决方案ExecuTorch上集成了可利用NPU的基础组件，也正努力于NPU执行这些量化模型。

迄今Meta已于Android OnePlus 12、三星S24+/S22及iOS设备上测试过这些量化模型，确定它们都可达到相当的准确性。

世良情感网

逢纪说科技