腾讯ARC实验室震撼发布Mistral-Pro系列模型,现已在始智AI wisemodel.cn开源社区全面上线。该模型在Mistral-7B基础上创新升级,通过Decoder块扩展技术,显著提升了代码理解和数学推理性能,综合表现与谷歌最新Gemma模型旗鼓相当。
更令人瞩目的是,MetaMath-Mistral-Pro在Mistral-Pro的基石上针对数学领域进行了SFT微调,在权威数学评测集中展现出卓越的SOTA性能。
"探索腾讯ARC,领略尖端AI技术实力。汇聚全球智慧,驱动创新突破,赋能千行百业,成果丰硕:已成功助力腾讯业务优化,实现90%+问题解决率。洞见未来,尽在腾讯ARC。"
Mistral-Pro模型突破性升级,将Mistral架构由32层扩展至40层,维持原参数配置不变。独创的初始化技术使新增8层默认为恒等映射,确保前后输出无缝衔接。针对代码与数学领域,我们在Proof-Pile-2、the-stack-dedup、AutoMathText及CosmoPedia四大专业预训练数据集上深度优化,持续进行预训练,以期实现卓越性能提升。
图表揭示,Mistral-Pro对Mistral的数学与代码任务性能显著提升,在维持其全能表现的同时,整体性能媲美Gemma。此款实力模型即为基础版本——Mistral-Pro。
经过SFT深度优化,Mistral Pro以MetaMath为微调数据源,全面激活所有参数训练,不仅限于新添加层。最终,我们成功打造出MetaMath-Mistral-Pro,其性能在MetaMath系列模型中傲视群雄,树立了新的性能标杆。
"块扩展法,作为一种高效后预训练技术,巧妙地通过复制Transformer块对现有预训练语言模型进行扩容,新块的线性层以零初始化实现恒等映射。仅针对特定领域语料库微调新增部分,其余块保持冻结状态。优化后的扩展模型在通用任务及特定领域任务中均展现出卓越性能。"
块扩展技术聚焦于模型的后预训练阶段,针对代码、数学等特定领域语料库,以通用数据训练出的顶尖语言模型(例如llama)为基础进行定制扩展。通过独特地运用块扩展法增加LLM内部的块数量,使模型得以高效吸纳更多领域专业知识,仅对新添加的块进行微调,原块则保持冻结状态,确保模型维持其强大的通用理解力,实现精准与广度的完美结合。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-