4月30日下午消息,deepseek今日于ai开源社区huggingface上发布了一个名为deepseek-prover-v2-671b的新模型。
据悉,deepseek-prover-v2-671b使用了更高效的safetensors文件格式,并支持多种计算精度,方便模型更快、更省资源地训练和部署,参数达6710亿,或为去年发布的prover-v1.5数学模型升级版本。
在模型架构上,该模型使用了deepseek-v3架构,采用moe(混合专家)模式,具有61层transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了fp8量化,可通过量化技术减小模型大小,提高推理效率。