英伟达新近开源的 Nemotron 3 系列(Nano / Super / Ultra)被业内视为“长上下文+高吞吐+可扩展”的新标杆,核心优势可以概括为五点: 1. 混合架构,兼顾长程记忆与精准推理 把状态空间模型(Mamba)、注意力机制(Transformer)和混合专家(MoE)三层结构“缝合”进同一主干: - Mamba 层以 O(N) 线性复杂度消化超长上下文,显存占用几乎不随长度爆炸; - Transformer 层在关键位置做“精准回查”,弥补 Mamba 在复制-召回类任务上的信息损耗; - MoE 路由只激活部分专家,可在不增加稠密计算的前提下把“有效参数量”放大 4 倍。 2. 百万级 token 上下文,一次读完“大部头” Nemotron 3 Nano 就支持 1 M token 窗口(≈ 1600 页文本),在代码库、长文档、多轮对话等场景里无需再切分段落,可一次性保留完整证据链和历史计划。 3. 推理速度/吞吐量翻倍,边缘端也能跑 由于省掉了巨大的 KV-Cache 矩阵,Nano 版本在单张 A10G 卡即可部署,相比纯 Transformer 同规模模型: - token 吞吐量最高提升 4–6 倍; - 生成相同时长的文本,显存占用降低约 60 %。 4. 训练-推理全链路低比特优化 预训练直接采用英伟达自研 4-bit 浮点格式 NVFP4,配合 TensorRT-LLM、Wide Expert Parallelism、多 token 预测(MTP)等推理加速栈,可在 GB200 NVL72 平台实现单节点 50 万 token·s⁻¹·MW⁻¹ 的能效比。 5. 开源即“全家桶”,降低企业定制门槛 除模型权重外,英伟达同步放出 25 T token 级预训练语料、强化学习环境(NVIDIA Dynamo)以及对齐/微调脚本,方便企业在私有数据上继续训练或直接蒸馏出小模型,显著节省算力与工程成本。 综合来看,Nemotron 3 把“超长上下文、高吞吐、低显存、可扩展”做成了同一条技术曲线,而不是此消彼长的权衡,这正是其相对其他开源大模型的最大差异化优势。


