小米大模型升级第二代：参数尺寸0.3B~30B，能力平均提升超45%

IT之家11月12日消息，小米公司MiLM大模型在去年8月首度现身C-Eval、CMMLU大模型评测榜单，并在今年5月通过大模型备案，相关模型逐步应用于小米汽车、手机、智能家居等产品中。

今日，小米官方宣布大模型已经实现了从一代到二代（MiLM2）的升级迭代。

据介绍，此次迭代不仅扩充了训练数据的规模、提升了数据的品质，更在训练策略与微调机制上进行了深入打磨，增强了技术实力并全面升级了配套的部署技术。IT之家从小米公告获悉，小米第二代大语言模型的几个主要升级是：

第二代大语言模型丰富了模型的参数矩阵，参数规模同时向下和向上扩充，实现了云边端结合，参数尺寸最小为0.3B，最大为30B；

第二代大语言模型在10大能力维度上，相比于第一代模型平均提升超过45%，其中指令跟随、翻译、闲聊等对于智能助手而言比较关键的能力上，效果处于业界前列；

第二代大语言模型在端侧部署上支持3种推理加速方案，包括大小模型投机、BiTA、Medusa，并且自研量化方案相比于业界标准高通方案，量化损失降低78%；

第二代大语言模型支持的最长窗口为200k（第一代为4k），在长文本评测中，效果处于“业界前列”。

二代效果全方位提升

小米大模型团队采用自主构建的通用能力评测集Mi-LLMBM2.0，对最新一代的MiLM2模型进行了全方位评估。

该评测集涵盖了广泛的应用场景，包括生成、脑暴、对话、问答、改写、摘要、分类、提取、代码处理以及安全回复等10个大类，共计170个细分测试项。

以MiLM2-1.3B模型和MiLM2-6B模型为例，对比去年发布的一代模型，在十大能力上的效果均有大幅提升，平均提升幅度超过45%。

小米的「人车家全生态」战略，旨在构建一个涵盖人、车、家等多元化生活场景的超级智能生态系统，对于大模型的生成、闲聊、翻译等能力提出了更高的要求。在这些关键能力上，MiLM2-6B模型的评测成绩号称“对比业内同参数规模模型也有较优的效果”。

MiLM2模型矩阵云边端结合

在轻量化部署的大原则下，小米自研大模型团队考虑了集团内部多元化的业务场景及不同落地场景的资源限制，构建并不断扩充了自研大模型的模型矩阵，将大模型的参数规模扩展至0.3B、0.7B、1.3B、2.4B、4B、6B、13B、30B等多个量级，以适应不同场景下的需求。

0.3B~6B：终端（on-device）场景，应用时通常是一项非常具体的、低成本的任务，提供不同参数规模的模型以适配不同芯片及存储空间的终端设备，微调后可以达到百亿参数内开源模型效果。

6B、13B：在任务明确、且需要比6B以下参数模型提供更多的零样本zero-shot/上下文学习时，6B和13B是一个可能有LLM涌现能力的起点，支持多任务微调，微调后可以达到几百亿开源模型的效果。

30B：云端场景，具备相当坚实的zero-shot/上下文学习或一些泛化能力，模型推理能力较好，能够完成复杂的多任务，基本达到通用大模型水平。

小米自研大模型矩阵不仅包含多样的参数量级，同时也纳入了各种不同的模型结构。在二代模型系列中，大模型团队特别加入了两个MoE（MixtureofExperts，即混合专家模型）结构的模型：

MiLM2-0.7B×8

MiLM2-2B×8

两个模型的差异主要体现在训练总参数量、词表大小等方面。MoE模型的工作原理是将多个承担特定功能的“专家”模型进行并行处理，进而综合各模型的输出来提高整体预测的准确度和效率。

以MiLM2-2B×8为例，根据评测结果，该模型在整体性能上与MiLM2-6B不相上下，而解码速度实现了50%的提升，在保证模型性能不打折扣的同时，提升了其运行效率。

4B模型端侧落地，30B模型云端部署

端侧新增4B模型

去年，小米的大模型团队在端侧部署方面取得了进展，使小米成为业界首个在移动设备上成功运行1.3B和6B大模型的公司。随着二代大模型的迭代更新，端侧部署技术也有了新的突破，新的4B模型将在端侧发挥更重要的作用。

小米大模型团队地提出了“TransAct大模型结构化剪枝方法”，用8%的训练计算量即从6B模型剪枝了4B模型，训练效率得到提升；同时小米大模型团队自研了“基于权重转移的端侧量化方法”和“基于Outliers分离的端侧量化方法”，降低了端侧量化的精度损失，对比业界标准高通方案，量化损失下降78%。MiLM2-4B模型总共40层，实际总参数量为3.5B，目前已经实现在端侧部署落地。