DeepSeek论文：NSA突破性稀疏注意力技术实测：推理速度提升11倍

事件性驱动：

DeepSeek 发布最新论文：NSA 突破性稀疏注意力技术实测：推理速度提升11倍

DeepSeek 研究团队在 arXiv 上发表了一篇题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”的论文，提出了一种全新的注意力机制架构 NSA（Native Sparse Attention，原生稀疏注意力）。

NSA 架构就主要致力于解决当前大模型长文本处理中的关键瓶颈问题。

NSA 的核心技术创新主要体现在两个方面：

1、独特的分层稀疏注意力设计

该架构将输入序列按时间维度划分为连续的 block，并通过三条并行的注意力分支进行处理：

压缩注意力（Compressed Attention）通过可学习的 MLP 将每个 block 压缩成单一表示，用于捕获粗粒度的全局信息；

选择性注意力（Selected Attention）则保留最重要的 fine-grained token 信息；

滑动窗口注意力（Sliding Attention）用于处理近期的局部上下文。这种分层设计使得模型能够在保持表达能力的同时大幅降低计算复杂度。

图丨 NSA 架构概览（来源：arXiv）

2、其硬件友好的实现优化。

基于 Triton 开发了专门的 kernel，通过“Group-Centric Data Loading”策略，将同一 GQA（Grouped-Query Attention）组内的所有 query head 同时加载到 SRAM 中处理。这种设计不仅最大化了 Tensor Core 的利用率，还通过优化的循环调度消除了冗余的 KV 数据传输。特别是在处理 block 化的稀疏注意力时，NSA 采用了连续的内存访问模式，这与现代 GPU 架构高度契合。

概括起来就是

1、核心组件

动态分层稀疏策略：NSA 采用动态分层的稀疏策略，允许模型在不同任务上下文中灵活选择计算方式，在保证性能的同时减少不必要的计算。

2、粗粒度 token 压缩：

通过将键（key）和值（value）聚合成块（block）级表示来捕捉粗粒度的语义信息，减轻注意力计算的负担。

3、精粒度 token 选择：

给每个块分配重要性分数，根据分数选择排名前 n 的块，并将这些块中的标记用于注意力计算，在保留关键信息的同时显著降低计算负担。

NSA通过高效的长序列处理能力，使模型能够直接处理整本书籍、代码仓库或多轮对话（如千轮客服场景），扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。

NSA通过针对现代硬件的优化设计，在提高推理速度的同时、降低预训练成本，而不会牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

【民生计算机】DeepSeek发布最新论文NSA的“长文本平权“利好什么方向

2月18日，DeepSeek发布最新论文，通过针对现代硬件的优化设计，NSA在提升推理速度的同时降低预训练成本且不牺牲性能，在通用基准测试、长上下文任务以及基于指令的推理中，NSA的表现可美甚至超越全注意力模型。面向长文本的工作场景有望加速实现AI赋能

建议关注: