颠覆显卡,AI硬件未来发展方向之二:大概率准确替代准确

如是者有为 2025-03-28 04:46:02

在上一篇文章中,我们讲到“存算一体”如何从结构上挑战 GPU,把“存”与“算”这对老搭档合并到一个物理单元中,让神经网络的每一次运算都在原地完成。这种方式,天然适配 AI 的特性:模糊、并行、低延迟。

但结构变了还不够,更深层的,是对“什么是计算准确性”的重新定义。这才是真正要颠覆显卡的核心所在。

显卡是数字计算的典型代表,它所有计算都建立在一种假设上:同样的输入,必须永远得到完全一致的输出。这就是“准确”在数字世界中的含义。为了保障这一点,我们设计了复杂的浮点格式、进位逻辑、舍入控制、校验机制,只要计算涉及小数点,那就必须一位不少地对齐。

但 AI 模型的运作逻辑,恰恰不是这样。神经网络并不追求逐比特的输出一致性,它只关心一个事情:结果是不是“高概率正确”。

训练一个模型的过程,本质上是一个统计优化问题。输入数据带有噪声,标签可能有模糊,梯度更新依赖采样,参数初始化本身也是随机的。这一切都意味着:AI 的每一步,都容许波动;模型的每一次推理,只要大多数情况下都给出正确答案,那就是一个好模型。

所以,我们得重新定义“准确”。不是结果每次都一模一样,而是每次结果都“足够好”。是稳定性优先,而不是一致性优先。是统计意义下的可靠性,而不是逻辑意义下的完美。

而显卡的问题就在这里:它依然死守“每次都一样”的传统哲学,把大量资源浪费在保持计算精度、数据一致性、位级控制这些对 AI 来说没那么重要的细节上。

比如,神经网络中的一次权重更新,权重值从 0.37392 更新到 0.37401,在 FP32 精度下计算完全正确,但如果你用更低的 INT8 或 even 更模糊的电压-电阻模拟乘法来处理,只要结果在 0.37 到 0.38 之间,模型仍然能收敛,性能不会明显下降,甚至在某些任务上还能因为噪声而提升泛化能力。

这就引出了对硬件层面更适配 AI 逻辑的替代方案:模拟计算。它不是不用小数点,而是放弃了“必须每次都对”的神经质追求。

在模拟计算中,计算单元不是依赖门电路推导出浮点乘法的结果,而是直接让物理过程“自然发生”运算。你设置一个输入电压,通过一个具有权重记忆的电阻阵列,输出电流就完成了一次除法。

这种运算方式天然带噪、不可复现,却正是 AI 所需要的“模糊可控”。

也正因如此,模拟计算具备三个传统数字计算无法比拟的优势:

能耗极低:因为没有时钟,没有门级控制,只有电流流动;并行性极高:整个电阻阵列同时响应输入,天然矩阵运算;物理空间紧凑:可与存算一体技术结合,进一步减少数据搬运;

更关键的是,模拟计算不追求一致性,而追求可控的变化范围,在 AI 的统计性任务中,这比死守精度更有效。

今天我们依然使用 GPU 来跑 AI,是因为它拥有强大的通用计算能力和深厚的软件生态,但它本质上是一个“用于渲染图形的数值计算器”,它的设计理念与 AI 的模糊性天生冲突。AI 是在变化中寻找规律,而 GPU 是在控制中排斥变化。

模拟计算就不同了。它允许每次输出稍有不同,但长期看结果是对的。这种“大概率准确”,正是 AI 训练和推理所真正需要的。

所以,我们必须承认:AI 的需求不是“精度的绝对值”,而是“误差的可接受性”。

只要误差不累积、不系统性偏移,AI 不在乎你这一次是不是比上一次精确到小数点后 8 位。它更关心的是——你是不是在所有混乱条件下都还能稳定收敛。

这正是大概率准确对传统准确的全面替代。

所以,模拟计算不仅仅是一种省电的新架构,它代表了一个全新的计算哲学:让结果落在“可信范围”内,而不是执着于“每一位都对”。

显卡的辉煌正在逼近天花板,而一批模糊、带噪、极快、极省的新型计算单元,正在从材料层面生长出来。AI 的下一代硬件,不会再精益求精去控制误差,而是会主动设计一个“可以容忍误差”的环境。

这才是人工智能最真实的硬件逻辑。

0 阅读:3
如是者有为

如是者有为

感谢大家的关注