作者 | 陈骏达
编辑 | 漠影
2025年,以DeepSeek、QwQ等为代表的推理大模型火爆全球,并在复杂任务上展现出强大实力。这也让不少企业考虑,如何能利用此轮推理大模型的技术进步,来优化自身的决策、提升企业运行效率并促进创新。
然而,传统的CPU服务器在处理当前的AI推理需求时显得力不从心,而GPU推理服务器动辄上百万的高昂成本又将许多中小企业挡在门外。
在这样的背景下,市场亟需一种既能控制成本又能保证性能的服务器解决方案,以满足企业对便捷、高性价比AI推理服务的需求。
随着AI技术的快速发展,CPU服务器也在不断进化。近日,浪潮信息发布的元脑CPU推理服务器,能高效运行DeepSeek-R1 32B和QwQ-32B等适合企业日常需求的推理模型,还能与企业原有的业务兼容,具备性价比高、运维简单等优势。
▲元脑CPU推理服务器,基于QwQ-32B模型生成猜数字游戏
在GPU服务器之外,新一代CPU推理服务器为企业提供了快速、易获取且低成本的算力供给,正成为更多企业的理想选择。
一、跑大模型GPU并非唯一解,CPU推理服务器成中小企业理想新选择当谈及部署大模型时,不少企业的第一反应都是“买卡”。的确,在大模型训练、推理的场景中,GPU加速卡凭借强大的浮点运算能力和大规模并行处理架构,在高吞吐量的AI推理任务上展现出明显优势。
但GPU并不是唯一解。
CPU更擅长处理复杂的逻辑运算和通用计算任务,虽然在高并行计算任务上不如GPU,但在处理多样化工作负载(如数据库查询、业务逻辑处理)时性能表现优秀。而且,随着技术的不断迭代,具备AI计算能力的CPU服务器也开始在AI推理场景中展现独到优势。
在大模型推理过程中,不少模型采用KV Cache(键值缓存),用于存储解码过程中生成的中间结果,以减少重复计算,提升推理效率。随着模型规模的增大,KV Cache的存储需求也随之增加。
与GPU服务器相比,CPU推理服务器以更低的硬件投入,支持更大容量的系统内存,能够轻松存储更大规模的KV Cache,避免频繁的数据交换,从而提升推理效率。CPU推理服务器还可通过多通道内存系统,进一步支持大规模KV Cache的高效访问。
当CPU推理服务器与高效的中等尺寸推理模型结合后,能够形成显著的协同效应,在保证性能的同时进一步压缩成本。
以业界多款32B推理模型为例,这些模型通过采用更高效的注意力机制、模型量化与压缩技术以及KV Cache优化,显著降低了计算和存储需求。例如,DeepSeek-R1 32B在知识问答、智能写作和内容生成等方面表现优异,而QwQ-32B则在数学推理、编程任务和长文本处理等领域展现出强大的性能。
此外,DeepSeek-R1 32B和QwQ-32B的训练数据中包含了海量的高质量中文语料库,使其更加适合国内企业的应用需求。
在企业知识库问答、文档写作、会议纪要整理等场景中,32B参数级别的模型往往是最佳选择,既能提供强大的能力支持,又能保持合理的硬件投入,仅基于CPU推理服务器,企业用户即可实现本地化部署,满足对性能、成本和易用性的多重需求。
从成本角度来看,相比GPU服务器高昂的硬件成本,更严格的电源、散热和机架空间,CPU服务器对环境的要求较为宽松,对于轻量使用和预算有限的企业而言,更具性价比。
二、软硬件协同优化成效显著,解码速度翻番、效率提升至4倍浪潮信息本次推出的元脑CPU推理服务器,正是这样一款支持中等尺寸模型推理,能为中小企业提供高效AI推理服务的CPU推理服务器。
在实际测试中,单台元脑CPU推理服务器在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下,解码性能超过20tokens/s,20个并发用户下,总token数达到255.2tokens/s。
▲基于DeepSeek-R1 32B 并发性能测试数据
在使用QwQ-32B进行模型推理时,20个并发用户数下总token数达到224.3tokens/s,可以提供流畅稳定的用户体验。
▲基于QwQ-32B 并发性能测试数据
元脑CPU推理服务器的性能,得益于浪潮信息的软硬件协同优化。
算力方面,元脑CPU推理服务器采用4颗32核心的英特尔至强处理器6448H,具有AMX(高级矩阵扩展)AI加速功能,支持张量并行计算。与传统双路服务器方案的有限内存不同,元脑CPU推理服务器的多通道内存系统设计可支持32组DDR5内存。
在这些硬件的加持下,元脑CPU推理服务器单机具备BF16精度AI推理能力、最大16T内存容量和1.2TB/s内存带宽,可以更好满足模型权重、KV Cache等计算和存储需求,快速读取和存储数据,大幅提升大模型推理性能。
▲元脑CPU推理服务器NF8260G7配置
在算法方面,元脑CPU推理服务器对业界主流的企业级大模型推理服务框架vLLM进行深度定制优化,通过张量并行和内存绑定技术,充分释放服务器CPU算力和内存带宽潜能,实现多处理器并行计算,效率最高提升至4倍。
面对内存带宽的挑战,元脑CPU推理服务器为进一步提升解码性能,采用了AWQ(Activation-aware Weight Quantization激活感知权重量化)技术。
AWQ技术能确定模型中对性能影响最大的少部分重要权重,并通过保护这些权重来减少量化带来的误差。AWQ还避免了混合精度计算带来的硬件效率损失。
采用了AWQ的元脑CPU推理服务器在解码任务中的性能提升了一倍,让大模型在保持高性能的同时,跑得更快、更省资源。
元脑CPU推理服务器还通过浪潮信息打造的AI Station平台,支持用户灵活选择适配的大模型算法,包括DeepSeek全系模型、QwQ和Yuan等不同参数量的模型。
三、更懂中小企业需求,通用性、成本效益突出在智东西与浪潮信息副总经理赵帅的沟通中,我们了解到,元脑CPU推理服务器仅推出1周,便吸引了多家来自大模型、金融、教育等行业的客户咨询和测试,这款CPU推理服务器精准地填补了中小企业市场中的一个关键空白。
目前,许多企业对将私有数据上云仍持保留态度,更倾向于在本地完成AI推理任务。然而,如果企业选择使用GPU服务器来部署高性能AI模型,往往需要承担高昂的初始投资成本。对于中小企业而言,这种投资的性价比并不高——它们通常不需要极致的AI性能或超高的并发处理能力,而是更关注易于部署、易于管理、易于使用的入门级AI推理服务。
在这种情况下,生态更为成熟、开发工具更为健全的CPU推理服务器展现出了显著的优势。CPU推理服务器不仅能够更好地融入企业现有的IT基础设施,还因其通用性而具备更高的灵活性。
与专用AI硬件(如GPU服务器)不同,CPU推理服务器在AI推理需求空闲期,还可以兼顾企业的其他通用计算需求,如数据库管理、ERP系统运行等,从而最大化硬件资源的利用率。
在部署便捷性方面,元脑CPU推理服务器功耗2000W左右,降低了对供电设备的要求,还使得服务器的冷却需求大幅减少,仅需家用级空调即可满足散热要求。这意味着元脑CPU推理服务器能够轻松适应大部分企业自建的小型机房环境,无需额外投资高成本的冷却设施或对现有机房进行大规模改造。
元脑CPU推理服务器还具备高可靠性的特点,平均无故障时间可达200000小时,能够保障关键应用和AI推理任务的持续稳定运行。这一特性对于企业来说尤为重要,尤其是在金融、医疗、制造等对系统稳定性要求极高的行业中,高可靠性意味着更低的业务中断风险和更高的运营效率。
谈及未来,赵帅分享,浪潮信息还将进一步提升元脑CPU推理服务器的能力。依托于融合架构开发的经验积累,他们已在开发内存资源池化的新技术,结合长文本等算法特征进行软件优化,更好地支持企业的使用需求。
结语:CPU推理服务器有望推动AI普惠随着AI技术往行业深水区发展,大模型推理需求正从大型企业逐步向中小企业渗透,从少部分企业所享有的“奢侈品”转化为大部分企业的“必需品”。
在这一进程中,如元脑CPU推理服务器这样的高性价比AI推理解决方案,有望成为中小企业实现AI普及化和行业智能化的重要工具。