DeepSeek发表了新论文

成天评科技文化 2025-02-19 22:24:42

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention这篇论文提出了NSA(Native Sparse Attention),这是一种原生可训练的稀疏注意力机制,旨在解决长文本建模中传统注意力机制计算成本过高的问题。NSA 的创新点主要体现在以下几个方面:

1.动态分层稀疏策略

NSA 采用了一种动态分层的稀疏策略,结合了粗粒度的 Token 压缩和细粒度的 Token 选择:

• 粗粒度 Token 压缩:通过将连续的 Token 聚合成块级表示,捕获全局模式,减少计算负担。

• 细粒度 Token 选择:从序列中选择最重要的 Token,保留关键的局部信息。

这种分层设计不仅减少了计算量,还能有效避免信息丢失,使模型在处理长序列时既高效又精准。

2.硬件对齐的系统设计

NSA 的算法设计充分考虑了现代硬件的特性,通过优化算术强度(Arithmetic Intensity),实现了计算与内存访问的平衡:

• 算术强度平衡:通过优化算法设计,确保计算过程中的内存访问连续性和计算并行性,最大化 GPU 的 Tensor Core 利用率。

• 硬件友好的内核实现:NSA 专为 GPU Tensor Core 设计的内核能够显著提升计算速度。

3.端到端可训练

与许多仅在推理阶段应用的稀疏注意力方法不同,NSA 支持端到端训练:

• 端到端训练支持:NSA 不仅能在推理阶段高效运行,还能在预训练过程中减少计算量,同时保持甚至提升模型性能。

• 可微的稀疏门控机制:避免了传统稀疏方法中不可导的掩码操作,使得稀疏模式能够在端到端的训练中自适应调整。

4.滑动窗口机制

NSA 引入了滑动窗口机制,专门处理局部上下文信息,避免模型过度依赖局部模式。这一设计使得模型在处理长文本时能够更好地平衡全局和局部信息。

5.显著的性能提升

实验结果表明,NSA 在多个基准测试中表现优于或接近全注意力模型,尤其是在长文本任务和推理任务中表现出色:

• 在处理 64k 长度的序列时,NSA 在解码、前向传播和反向传播阶段均实现了显著的加速(最高达 11.6 倍)。

• NSA 在训练和推理阶段均展现出显著的加速效果,尤其是在长序列处理中。

6.广泛的应用前景

通过高效的长序列处理能力,NSA 使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。

这些创新点使得 NSA 成为一种高效且实用的长文本建模解决方案,为大语言模型的未来发展提供了新的方向。

0 阅读:2
成天评科技文化

成天评科技文化

感谢大家的关注