NVIDIA 新开源的模型 Nemotron 3 Nano,是个MoE模型,由23个Mamba-2和MoE层以及6个注意力层组成。总参数30B,激活3B。跑分不错。使用Qwen做过微调,但不支持中文。

NVIDIA 新开源的模型 Nemotron 3 Nano,是个MoE模型,由23个Mamba-2和MoE层以及6个注意力层组成。总参数30B,激活3B。跑分不错。使用Qwen做过微调,但不支持中文。

猜你喜欢
【4评论】【4点赞】
【2评论】【4点赞】
【9评论】【6点赞】
【1评论】【1点赞】
【40评论】【17点赞】
【1评论】【2点赞】
作者最新文章
热门分类
科技TOP
科技最新文章