华为之后,又一中企突破封锁,外媒:英伟达的时代结束了!

百家哓科技 2025-02-08 15:55:22

两年前,老美的一纸禁令,让英伟达A100和H100芯片对我国AI企业的供应彻底中断。这本来是想精准打击我们的“算力”,但没想到,却意外地点燃了我国AI产业的熊熊大火。一时间,从华为昇腾芯片站出来扛起训练的大旗,到摩尔线程用国产GPU来解决推理的难题,一场轰轰烈烈的“去英伟达化”技术革命就这样开始了。

就在2月4日,摩尔线程的一则官方宣布让整个行业都炸了锅。这意味着,继华为之后,又一家中国企业打破了西方的封锁线。他们基于自己研发的MTT S80和S4000显卡,成功部署了DeepSeek-R1蒸馏模型。这个模型在中文阅读理解、代码生成等任务上的表现,跟国际主流显卡不相上下。

更牛的是,他们自主研发的推理引擎,通过一系列的优化,让模型效率提升了30%。连外媒The Register都忍不住说:“当英伟达还在等白宫发通行证,中国厂商已经用开源生态和自研硬件撕开了封锁线。”

那摩尔线程到底是怎么做到的呢?他们有三招“杀手锏”。

第一招,就是蒸馏模型。面对国产GPU显存带宽的不足,摩尔线程跟深度求索合作,把原本70B参数的大模型,通过知识蒸馏技术,“瘦身”成了7B的小模型。这样一来,MTT S4000显卡只需要24GB显存,就能轻松应对复杂的推理任务。有开发者测试过,在中文法律文书解析的场景下,这个“瘦身”后的模型,响应速度只比英伟达的A10慢了15%,但功耗却降低了40%。

第二招,是开源框架。摩尔线程选择了Ollama开源框架作为突破口,这个框架支持一键部署主流模型,特别适合分布式计算。他们深度优化了Ollama在MTT显卡上的运行效率,开发者不用重写代码,就能把现有的AI应用迁移过来。有工程师试过,在MTT S80上手动部署DeepSeek-R1,需要修改的代码行数不到50行,CUDA的兼容性也超出了预期。

第三招,就是自研引擎了。MTT S4000显卡采用了12nm工艺,浮点算力达到了16TFLOPS。但真正的绝活儿,还是他们自主研发的推理引擎。这个引擎通过动态内存分配技术,把大模型分成“计算块”和“数据块”,解决了显存碎片化的问题。在中文对话任务的测试中,用这个引擎加持,吞吐量直接提升了2.3倍。摩尔线程的CTO在采访中形象地比喻说:“这就像给显卡装了双涡轮。”

在这场突围战中,华为昇腾和摩尔线程配合得天衣无缝。昇腾芯片主要负责训练部分,为DeepSeek提供了强大的计算能力;而摩尔线程则专注于推理部分,通过轻量化的部署方式,让国产GPU在终端应用场景中表现出色。这种分工在电商推荐系统中已经取得了明显的效果。

比如,某家大型电商使用昇腾910B训练了一个千亿参数的模型,然后通过摩尔线程的MTT S4000进行实时推理,整体成本比使用英伟达的方案降低了35%。不仅如此,国产组合在中文语义理解任务中的准确率还更高。

可以肯定的是,未来英伟达的处境会越来越难。根据摩根士丹利的测算,2023年在中国AI芯片市场,英伟达的份额已经从85%大幅下降到了58%,而空缺的市场正在被华为、摩尔线程等厂商逐步抢占。彭博社甚至评论说:“失去了东方市场后,英伟达的研发投入产出比将面临巨大挑战。”

外媒现在都在惊呼,制裁正在杀死英伟达的未来。德国《明镜周刊》分析说,中国企业的应对策略堪称教科书级别,通过开源模型降低生态依赖,自研硬件突破算力封锁,正在构建一条“去美化”的AI产业链。而摩尔线程的技术迭代速度更是让西方震惊,他们计划2024年推出5nm工艺的MTT S5000,算力直接对标英伟达的A40。DeepSeek开源社区也已经吸引了超过10万的开发者,衍生出了200多个垂直领域的微调模型。

这场比拼的结果,可能就看两个关键点。一个是看谁掌握制定标准的权力,摩尔线程已经跟信通院一起发布了《大模型推理GPU技术规范》,头一回给中文的自然语言处理任务加速定了标准;另一个是看生态的影响力有多大,用MTT显卡做的AI开发板,才卖1999块钱,已经有一大堆大学生创新团队拿它练出了方言识别模型。

就像硅谷的投资大佬Chris Dixon说的那样:“开源社区里大家的智慧加起来,早晚能打破任何人为设置的障碍。”封锁对我们来说,更像是起跑线,从北斗打破GPS的垄断,到5G技术反超通信霸权,再到如今AI芯片的奋力追赶,每次被封锁,都让我们更铁了心要走自主研发的路。

而西方制裁最逗的地方就是,它永远消灭不了真正的创新者,只会让自己把市场份额给丢了。这场AI芯片的较量,其实结果早就有数了。对此,你们怎么看?

0 阅读:20
百家哓科技

百家哓科技

记录最新的科技资讯