未来AI或无需超级计算机,BitNet b1.58 2B4T模型开启新可能
当前主流AI模型普遍采用16位或32位浮点数存储神经网络权重参数,但这种高精度方案需要付出巨大代价:最大模型的存储需求可达数百GB,响应查询时复杂的矩阵运算更需消耗海量算力。
微软通用人工智能研究组最新发布的神经网络模型颠覆了这一范式,仅用-1、0、1三个整数值存储权重。这项基于微软研究院2023年成果的"三元"架构不仅大幅降低计算复杂度,更在计算效率上实现"质的飞跃",研究人员表示该模型"在普通桌面CPU上即可高效运行"。尽管权重精度急剧下降,但团队宣称其"在多数任务中能与同规模全精度开源模型平分秋色"。
权重精简之路
权重简化并非全新概念。过去数年,量化技术持续探索如何将神经网络权重压缩至更小内存空间。近年来,最激进的量化尝试聚焦于"BitNet"架构,用单比特(+1/-1)表示每个权重。
新型BitNet b1.58模型虽未采用单比特方案,但其三元系统被称作"1.58位"(因log(3)/log(2)=1.58)。该模型的突破性在于:作为"首个开源原生1位大语言模型",其基于4万亿token训练集构建出20亿参数规模。研究人员强调"原生"特质——传统量化技术仅对全精度预训练模型进行后处理压缩,往往导致"性能显著劣化";而原生训练的BitNet模型此前规模有限,"尚无法与大型全精度模型抗衡"。
小身材大能量
权重简化最直观优势在于内存占用:BitNet b1.58仅需0.4GB内存,而同等参数规模的全精度模型需2-5GB。
简化的权重体系还带来推理效率革命。模型运算更多依赖加法指令,而非计算密集型乘法。研究人员估算,相比全精度模型,BitNet b1.58能耗降低85%-96%。通过专为BitNet架构优化的内核程序,其运行速度可达传统全精度transformer的数倍。团队表示,在单CPU环境下,模型"可达到接近人类阅读速度(每秒5-7个token)"(用户可下载针对ARM/x86 CPU的优化内核程序,或通过网页演示体验)。
在数学推理、知识测试等基准评估中,BitNet平均表现"接近同规模顶尖模型"。不过该结论尚未获得独立验证。
未解之谜
尽管概念验证成功,研究人员坦言尚未完全理解三元权重体系的理论基础:"大规模1位训练的有效性机制仍是未解之谜。"要让BitNet模型在参数量级和上下文窗口上比肩当今最大模型,仍需深入研究。
这项研究为应对GPU硬件与能耗成本飙升提供了新思路。当前全精度模型如同高油耗肌肉跑车,而BitNet或许预示着"经济型轿车"时代——用更少能耗实现相近性能。未来AI模型的演进方向,或将因这项突破发生根本性转变。
关注【黑客联盟】带你走进神秘的黑客世界
小老虎
真敢想,1位,类似于宫崎骏的卡通来仿真世界。