事件性驱动:
DeepSeek 发布最新论文:NSA 突破性稀疏注意力技术实测:推理速度提升11倍

DeepSeek 研究团队在 arXiv 上发表了一篇题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”的论文,提出了一种全新的注意力机制架构 NSA(Native Sparse Attention,原生稀疏注意力)。
NSA 架构就主要致力于解决当前大模型长文本处理中的关键瓶颈问题。
NSA 的核心技术创新主要体现在两个方面:
1、独特的分层稀疏注意力设计
该架构将输入序列按时间维度划分为连续的 block,并通过三条并行的注意力分支进行处理:
压缩注意力(Compressed Attention)通过可学习的 MLP 将每个 block 压缩成单一表示,用于捕获粗粒度的全局信息;
选择性注意力(Selected Attention)则保留最重要的 fine-grained token 信息;
滑动窗口注意力(Sliding Attention)用于处理近期的局部上下文。这种分层设计使得模型能够在保持表达能力的同时大幅降低计算复杂度。

图丨 NSA 架构概览(来源:arXiv)
2、其硬件友好的实现优化。
基于 Triton 开发了专门的 kernel,通过“Group-Centric Data Loading”策略,将同一 GQA(Grouped-Query Attention)组内的所有 query head 同时加载到 SRAM 中处理。这种设计不仅最大化了 Tensor Core 的利用率,还通过优化的循环调度消除了冗余的 KV 数据传输。特别是在处理 block 化的稀疏注意力时,NSA 采用了连续的内存访问模式,这与现代 GPU 架构高度契合。
概括起来就是
1、核心组件
动态分层稀疏策略:NSA 采用动态分层的稀疏策略,允许模型在不同任务上下文中灵活选择计算方式,在保证性能的同时减少不必要的计算。
2、粗粒度 token 压缩:
通过将键(key)和值(value)聚合成块(block)级表示来捕捉粗粒度的语义信息,减轻注意力计算的负担。
3、精粒度 token 选择:
给每个块分配重要性分数,根据分数选择排名前 n 的块,并将这些块中的标记用于注意力计算,在保留关键信息的同时显著降低计算负担。
NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。
NSA通过针对现代硬件的优化设计,在提高推理速度的同时、降低预训练成本,而不会牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。
【民生计算机】DeepSeek发布最新论文NSA的“长文本平权“利好什么方向
2月18日,DeepSeek发布最新论文,通过针对现代硬件的优化设计,NSA在提升推理速度的同时降低预训练成本且不牺牲性能,在通用基准测试、长上下文任务以及基于指令的推理中,NSA的表现可美甚至超越全注意力模型。面向长文本的工作场景有望加速实现AI赋能
建议关注:
1)办公场景:金山办公、合合信息、福昕软件、万兴科技(PDF)等,
2)政务IT:新点软件、广联达、太极股份等。
风险提示:技术落地不及预期,行业竞争加剧
【西部计算机】
DeepSeek发布创新注意力机制NSA,推理速度大幅提高 DeepSeek 发布新论文,提出了新的注意力机制 --NSA(Native Sparse Attention),是一种面向硬件且支持原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。
NSA架构在通用基准测试中达到了全注意力的性能,长上下文评估中的建模能力更胜一筹,推理能力得到增强,同时计算延迟显著降低,在64K长文本场景下,NSA实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。
我们此前提出AI应用规模化的两大基石--降本&降延时,如今均迎来重大突破,DeepSeek让大模型部署和推理成本下降了一个数量级,此次提出的NSA架构将让大模型的推理速度提升一个数量级。AI应用或将迎来全面爆发的黄金时代,我们继续推荐A!软件应用。
相关标的:用友网络、金蝶国际、虹软科技、新致软件、迈富时、鼎捷数智、合合信息、软通动力、金山办公、博思软件、顶点软件。


2月16日微信搜索接入DeepSeek,腾讯元宝接入DeepSeek-R1满血版






