AI圈大瓜!DeepSeek动了10年“承重墙”,大模型要变快变稳了? 2026年元旦,AI圈被DeepSeek的一个“王炸”炸醒。CEO梁文锋亲自挂帅,抛出了一项叫mHC的新技术,竟然要革深度学习“祖师爷”ResNet的命! 10年前,大神何恺明搞出的ResNet,就像给AI模型修了条“直通车道”。数据在模型里传输不用绕弯,深层网络才总算能正常训练,现在的ChatGPT、DeepSeek都是靠这条“车道”跑起来的。 但问题来了,现在AI模型越来越能打,一条“单车道”早就不够用了。后来字节跳动想了个招,把“单车道”扩成“多车道”(也就是HC技术),让数据能多线路传输、混合,本来是想提升性能,结果却乱了套。 这就像一个没有红绿灯的超级路口,车多了直接撞成一团。数据在模型里传着传着就“失控”了,信号被放大3000倍,模型训练时说崩就崩,根本没法大规模用。 而DeepSeek这次的mHC技术,核心就是给这个“无红绿灯路口”派来了“数学交警”。他们用一种特殊算法,给数据传输定了规矩:进来多少数据,出去就得是多少,既不能凭空变少,也不能莫名变多,就像能量守恒一样。 这么一改,效果立竿见影:原来3000倍的信号爆炸,被死死按在了1.6左右;模型训练时稳得一批,误差曲线平滑得像直线,还在逻辑推理、阅读理解等难任务上,比原来的模型表现更好。 更厉害的是,DeepSeek还把技术做了“抠门优化”。通过各种工程技巧,让这项升级的额外训练成本只增加了6.7%,算力没多花多少,性能和稳定性却双丰收。 现在大家都忙着在AI应用上卷来卷去,DeepSeek却回头去补底层“地基”。要知道ResNet已经统治AI架构10年,没人敢轻易动它,而这次mHC的出现,说不定会让下一代大模型跑得更快、更稳、更省钱。DeepSeek新架构mHC有何创新之处 你觉得这项“修地基”的技术,会改变AI行业的格局吗?评论区聊聊。


