IT之家4月18日消息,科技媒体WinBuzzer昨日(4月17日)发布博文,报道称微软研究团队推出了一款开源大型语言模型BitNetb1.582B4T,区别于传统训练后量化的方式,这款拥有20亿参数的大型语言模型(LLM)以1.58位低精度架构原生训练而成。
IT之家援引技术报告介绍,该模型性能直追同规模全精度模型,但计算资源需求大幅缩减。尤其令人瞩目的是,其非嵌入内存占用仅0.4GB,远低于竞品Gemma-31B的1.4GB和MiniCPM2B的4.8GB。
BitNet的高效秘诀在于其创新架构。模型摒弃传统16位数值,采用定制BitLinear层,将权重限制为-1、0、+1三种状态,形成三值系统,每权重仅需约1.58位信息存储。
此外,层间激活值以8位整数量化,形成W1.58A8配置。微软还调整了Transformer架构,引入平方ReLU激活函数、标准旋转位置嵌入(RoPE)以及subln归一化,确保低位训练稳定性。技术报告称,这种原生1位训练避免了传统后训练量化(PTQ)带来的性能损失。
BitNetb1.582B4T的开发历经三阶段:首先基于4万亿token的网络数据、代码和合成数学数据集进行预训练;随后通过公开及合成指令数据集(如WizardLMEvol-Instruct)进行监督微调(SFT);最后采用直接偏好优化(DPO)方法,利用UltraFeedback等数据集提升对话能力和安全性。
微软测试显示,该模型在GSM8K(数学)、PIQA(物理常识)等基准测试中表现优异,整体性能媲美主流1B-2B参数全精度模型,同时在能耗(每token0.028焦耳)和CPU解码延迟(29毫秒)上占据显著优势。
尽管BitNet潜力巨大,但其高效性需依赖微软提供的专用C++框架bitnet.cpp实现。标准工具如HuggingFacetransformers库无法展现其速度与能耗优势。
微软还计划优化GPU和NPU支持,延长上下文窗口至4096token,并探索更大规模模型、多语言功能及硬件协同设计。目前,BitNetb1.582B4T已以MIT许可证在HuggingFace发布,供社区测试与应用。
参考