或许下一波AI创新,不是比谁的模型更大,而是比谁的模型离你更近。
DeepSeekR1正在对整个科技领域产生巨大影响,颠覆人们有关AI的认知。在移动端,革新正在快速发生。
2月20日,高通发布了最新AI白皮书《AI变革正在推动终端侧推理创新》,介绍了端侧高质量小语言模型和多模态推理模型的前景。
在AI逐步大规模落地的过程中,我们已经逐渐意识到端侧的大模型推理可以为人们带来更高的可靠性,同时也可以提升数据安全性。而随着技术的快速发展,其还有更多的优势正在显现。
高通指出,四大趋势正在推动端侧AI变革:
当前先进的AI小模型已具有卓越性能。模型蒸馏和新型AI网络架构等新技术能够在不影响质量的情况下简化开发流程,让新模型的表现快速提升,接近云端大模型;模型参数规模正在快速缩小。先进的量化和剪枝技术使开发者能够在不对准确性产生实质影响的情况下,缩小模型参数规模;开发者能够在边缘侧打造更丰富的应用。高质量AI模型快速激增,这意味着文本摘要、编程助手和实时翻译等特性在智能手机等终端上的普及,让AI能够支持跨边缘侧规模化部署的商用应用;AI正在成为新的UI。个性化多模态AI智能体将简化交互,高效地跨越各种应用完成任务。
在前沿大模型技术不断取得突破的同时,科技行业也已经开始将精力投入到边缘侧的高效部署当中去。在训练成本下降、快速推理部署以及针对边缘环境的创新推动下,业内已经催生了大量更智能、更小型、更高效的模型。
这些技术进步正在逐渐传导到芯片厂商、开发者和消费者身边,形成新的趋势。
模型向小已成为发展必然
纵观最近几年的大语言模型发展,我们可以清楚地看到一些显著的趋势,包括从拼参数规模到拼应用、从单一模态到多模态、轻量化模型的崛起以及向终端侧部署的倾斜,等等。
尤其是最近DeepSeekV3、R1的推出,更体现了AI行业的这些发展趋势,由此带来的训练成本下降、快速推理部署和针对边缘环境的创新正在推动高质量小模型的激增。深究其原因,如今向小模型的转变是几个方面综合作用的结果。
一是模型网络架构不断创新,从最开始主流的Transformer到后来的混合专家模型(MoE)和状态空间模型(SSM)并存,大模型开发过程中的计算开销和功耗不断降低。因此,越来越多的模型开始采用新架构。
二是知识蒸馏技术的使用,这成为了开发高效「基础和特定任务」小模型的关键。通过将复杂的教师模型的知识迁移到更小的学生模型中,一方面显著减少了模型的参数量和计算量,简化了训练过程,占用的存储空间也更少,适合部署在资源受限的设备上;另一方面,学生模型同样可以获得丰富的知识,并保证模型准确性和泛化能力。
三是量化、压缩和剪枝等大模型优化和部署技术持续改进,进一步促进了模型规模向小。这些技术同样可以显著降低模型的计算和存储需求,同时保持较高的性能。
有了以上底层架构和技术层面的创新进步,小模型的能力正在趋近、甚至可以超越体量大得多的前沿大模型。比如在GPQA基准测试中,基于通义千问模型和Llama模型的DeepSeek蒸馏版本取得了与GPT-4o、Claude3.5Sonnet和GPT-o1mini等类似或更高的表现。
从整个行业的角度看,技术的进步推动了高质量生成式AI模型的激增。根据EpochAI统计,在2024年发布的AI模型中,千亿规模以下的模型超过了75%,成为主流。
图源:EpochAI,2025年1月。
因此,在成本与算力需求、性能权衡等多方面的驱使下,小模型正取代大模型成为众多企业和开发者的首选。当前,包括DeepSeekR1、MetaLlama等在内的主流模型都推出了小模型版本,并在主流基准测试和领域特定任务测试中表现出色。
特别地,小模型表现出的更快推理速度、更少内存占用和更低功耗,使得这类模型成为手机、PC等终端侧部署的首选。
在AI领域里,终端侧模型参数通常在10亿到100亿之间,而最近发布的一些新模型参数规模已经下降到20亿以下。随着模型参数规模的不断下降、小模型质量的提升,参数已不再是衡量模型质量的重要指标。
相对的,现在的旗舰智能手机运行内存配置在12GB以上,理论上已经足够支撑很多模型的运行。同时,针对主流配置手机的小模型也在不断出现。
而随着高质量小模型加快在手机、PC等终端侧大规模部署的步伐,又进一步推动了AI推理功能以及多模态生成式AI应用(比如文档摘要、AI图像生成、实时语言翻译等)在终端侧的广泛落地,为AI技术向更广泛端侧普通用户的普及提供了重要支持。
在推动端侧AI落地的过程中,高通一直在为行业铺路。
AI推理时代,高通将引领行业变革
高通凭借高能效的芯片设计、超前部署的AI软件栈及面向边缘应用的全面开发支持等技术专长,正在引领这一变革并从中受益。
高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉(DurgaMalladi)表示,如今的小模型性能已经超越了一年前推出的云端大模型,「我们关注的焦点已不再是模型本身,而是演进到终端上的应用发展。随着终端侧可以运行越来越多高质量的AI模型,AI应用开始涌现。AI正在重新定义所有终端的用户界面,这也意味着AI正在成为终端侧新的UI。」
高通认为,在AI定义的新时代,从包括语音、文本、图像的多种传感器数据,将会首先经由AI智能体进行处理——而不是直接应用于某个App。智能体获取信息后会将任务分配给不同的后台应用,这个过程对于用户来说是无感的。
在常规的手机系统里,开发者可用的终端侧模型数量正在激增,AI智能体需要从终端侧能够获取的大量AI模型中选择所需的模型完成任务。这个过程将会大幅降低交互的复杂性,实现高度个性化的多模态能力,并可以跨越各种应用完成任务。
对于终端用户来讲,AI智能体就是唯一在前端与他们交互的UI,而所有实际应用的处理都是在后台完成的。
利用高质量小模型的能力,智能手机这样的终端可以实现交互的创新。高通在AI从训练向大规模推理转型,以及从云端到端的扩展方面,具有一定战略优势:
高性能、高能效芯片设计:高通提供了集成定制CPU、NPU、GPU和低功耗子系统的行业领先系统级芯片,能够在终端侧提供高性能、高能效AI推理,在保持电池续航和整体能效表现的同时处理复杂AI任务;覆盖所有关键边缘细分领域的可扩展性:高通的可扩展硬件、软件解决方案已赋能数十亿智能手机、汽车、XR头显和眼镜、PC以及工业物联网等终端,为广泛的变革性AI体验提供了基础;活跃的生态系统:通过高通AI软件栈、高通AIHub和战略性的开发者协作,高通面向跨不同边缘终端领域的模型部署提供工具、框架和SDK,赋能开发者在边缘侧加速采用AI智能体和应用。
高通既预判了终端侧模型的爆发,同时也推动了边缘AI推理在跨终端设备上的落地。
高通公司总裁兼CEO安蒙(CristianoAmon)在近期的一季度财报电话会议中分享了他对当前AI行业趋势的看法:「近期的DeepSeekR1及其他类似模型展示了AI模型的发展速度越来越快,它们变得更小、更强大、更高效,并且可以直接在终端侧运行。事实上,DeepSeekR1的蒸馏模型在发布仅几天内就能在搭载骁龙平台的智能手机和PC上运行。」
随着进入AI推理时代,模型训练仍将在云端进行,但推理将越来越多地在终端侧运行,使AI变得更便捷、可定制且高效。这将促进更多有针对性的专用模型和应用的开发及采用,并因此推动各类终端对计算平台的需求。
DeepSeekR1的爆火恰如其分地验证了此前高通对终端侧AI的判断。高通凭借其先进的连接、计算和边缘AI技术以及独特的产品组合,不仅在终端侧AI领域保持了高度的差异化优势,还为其实现混合AI愿景提供了强有力的支持。
未来,端侧AI将会在各个行业中发挥越来越重要的作用。