中欧合作,研制新型硬件,从根本上改变计算逻辑,解决遗忘难题

老胡懂点星 2025-03-21 15:08:51

人工智能正快速进化,但它依然有记忆障碍。不是记不住,而是“遗忘得太快”。这不是笑话,而是一个根本性问题。

专业术语叫“灾难性遗忘”(catastrophic forgetting)。指的是神经网络在学习新任务时,会突然忘掉之前学会的东西。就像刚学完英语单词,一转头去背法语,结果英语全忘了。

这在AI领域是个大坑,尤其在“增量学习”“终身学习”中,一旦模型参数覆盖旧任务,那些宝贵的“知识”就会消失。

人脑不会这样。因为人脑有“元可塑性”(metaplasticity)——神经元之间的突触连接强度变化,是有层次、有机制的,不会无限放大某次刺激,也不会轻易抹除历史记忆。

科学家试图让AI模仿人脑,于是,突触就成了核心。突触的硬件等价物,是“忆阻器”(memristor)。不是新东西。1971年,惠普实验室提出了它的概念,但直到2008年才第一次实现。

现在,一支来自德国尤利希研究中心(Forschungszentrum Jülich)的团队,拿出了一种全新的忆阻器。主导者叫Ilia Valov,是彼得·格林贝格研究所(PGI-7)的领军人物。

这一次的不同,是他们真的找到了第三种机制。

前面两种是经典的ECM和VCM。ECM,全称electrochemical metallization,靠金属丝桥导通——在电极之间生长一根“金属细丝”,改变电阻,切断就等于清零。特点是切换快、电压低,但寿命短、不稳定。VCM,全称valence change mechanism,不是靠金属,而是靠氧离子的迁移,改变电极-电解质之间的势垒(Schottky barrier)。更稳,但需要高电压。

这两个方向打了十几年,商业化进展却一直卡着。原因不复杂:失败率高、工艺复杂、热稳定性差、寿命短。

Valov团队干了一件过去被认为“不可能”的事:融合两者优点,绕开各自缺陷。

他们没有用金属丝桥,也没有只靠氧离子,而是引入“金属氧化物丝桥”,即氧和钽离子共同形成的复合导电通道。它不会彻底溶解,也不会彻底导通。它总是“部分存在”,靠化学态的变化控制电阻。这种机制有个新名字:FCM(filament conductivity modification)。

简单说,导电丝桥从“有”变成“更有”或“更少”,而不是“有”与“无”的二元切换。这就从根本上提升了记忆的稳定性和可控性。最关键一点:它天然支持模拟和数字双模运作。

传统计算机是数字式,0和1;而人脑是模拟式,可以有0.5、0.78、0.923。现在这枚忆阻器兼容两者。数字处理速度快,模拟处理细腻丰富。Valov说,这正是大脑“不会突然遗忘”的关键机制。

不仅如此,这种忆阻器还有其他优点:一是电压窗口更宽。意思是,在更大的电压范围内,它依然稳定工作,不容易烧毁。二是热稳定性更高。热对纳米结构破坏大,以前的忆阻器烧得快、坏得多。三是工艺容错率更强。结构更稳、材料不那么敏感,意味着大规模量产成为可能。

这些性能参数,在以往的ECM和VCM中几乎是对立的。

而今,在FCM中达成了统一。团队已经把这个忆阻器集成进了一个人工神经网络模拟中,进行了图像识别训练,结果显示准确率高、抗遗忘能力强。

而且是在没有额外反向补偿机制的情况下实现的。

这点非常关键。过去为了解决灾难性遗忘,研究人员只能引入一堆“救火”机制,比如正则化、回放机制、参数冻结等等。每引入一个新机制,系统复杂度就指数上升,运算资源就爆炸。

而FCM这种机制,是“物理层面”的优化,从底层就减轻了“遗忘”的概率。一句话:这是在AI的神经突触上动刀了。

我们可以预见,这会对“计算-存储合一”(computation-in-memory)的架构带来直接冲击。传统芯片架构是冯·诺依曼式的,计算和存储是分开的:CPU负责计算,存储器(如RAM)负责记忆。每一次读写数据,都需要频繁传输,能耗高、延迟大。

忆阻器打破这一结构。它可以在同一个位置上既存储,又计算。信息不必来回跑,从根本上改变计算模式。

Valov团队的这项成果,已发表在《Nature Communications》。

一个细节值得注意:这是德国与中国研究人员的合作项目。中德科学合作一直很密切,而忆阻器这个领域,中国是有强劲科研积累的。2017年清华团队就提出了类似“可塑忆阻突触”结构;中科院多家单位也在攻克高集成度、可重复控制的忆阻器结构。

在当前美西方“卡脖子”语境下,中欧科研共同突破前沿材料,是科技全球化少有的清流。

当然,话说回来,这项成果离大规模产业化还有路要走。首先,这种新机制的批量制造工艺、良率、封装成本还需要优化。其次,它需要全新的芯片设计生态。换句话说,现在的EDA工具链根本没准备好迎接“忆阻器-原生芯片”。再往后,AI模型本身也要跟进适配。模型结构、参数分布方式,必须基于硬件特点做底层修改。

但至少现在有了“硬件级”的可能性。

0 阅读:0
老胡懂点星

老胡懂点星

感谢大家的关注