首先,必须要承中国公司DeepSeek开发的大模型很强,甚至可以和当初ChatGPT刚问世时媲美。如果说后者将人工智能推向了新的高度,那么前者就是另辟蹊径、让大家看到了一条训练大模型的新路,而且是中小企业能走通的路。
然而,认为DeepSeek将让美国科技股崩盘,甚至觉得GPU芯片和算力不重要了,完全是无稽之谈。在1月28日英伟达暴跌17%后我便发布了一个微头条反驳这种低认知的观点。
结果如我所料,晚上开盘后(美国当地时间1月28日上午)英伟达高开2%以上,之后虽有所起伏但开盘两个小时后开始发力,股价一路上涨,最终几乎以全天最高价128.99美元/股收盘,上涨8.9%。
前一日,英伟达市值蒸发超4万亿元人民币,第二个交易日便止住下跌势头,“回血”1.9万亿元人民币。
当然,不至于就此断定英伟达股价将重回涨势,两年内这家公司的市值翻了8倍以上,涨多了随时可能调整,主要和金融市场的多空博弈有关。DeepSeek相当于空头手里的一个重磅“武器”,是英伟达股价调整的一个契机,但也就是这点影响了,不改AI公司对先进算力芯片的长期需求趋势。
为什么这么说呢?因为有一个很多人不明白,或者说在当下的环境里不愿意接受的与DeepSeek有关的事实,即DeepSeek训练大模型用的是英伟达的GPU。
网上关于DeepSeek有多少块英伟达先进GPU的议论不断,有说1万块的,又说5万块,没有定论。可以肯定的是DeepSeek发布的大模型确实用的是英伟达的GPU。
DeepSeek脱胎于幻方量化,我相信但凡炒股的朋友都听过这家公司的名号,不少散户对其恨之入骨,不乏极端股民呼吁禁止幻方量化这样的私募量化基金公司投资A股。
作为顶级量化对冲基金,幻方量化早在几年前就开始囤积算力芯片,用于训练量化交易模型。根据可靠信源,其GPU储备量远超后来的AI初创“六小龙”,接近BAT这个级别的国内一线互联网企业。
2021年,DeepSeek创始人梁文锋参与的论文中提到,他们正配备了1万张A100GPU芯片。当时国内拥有1万块以上GPU的企业不超过5家,除了幻方量化外都是互联网大厂。
由此可知DeepSeek训练大模型的基础是英伟达算力芯片,以后想让大模型更强大依然要想方设法绕过美国政府设置的障碍,获得最新的GPU。作为英伟达的客户和产品的受益者,DeepSeek把英伟达干趴的逻辑显然是不通的。
这也是为什么英伟达在第一次股价大跌后敢在回应中提到:DeepSeek的研究展示了如何运用该技术,借助广泛可用的模型以及完全符合出口管制规定的算力,创建新模型。推理过程需要大量英伟达GPU和高性能网络。”
英伟达的回应并非往自己脸上贴金,说得很客观,DeepSeek想要更进一步需要大量高性能GPU,而当今世界有实力生产最先进人工智能算力芯片的只有英伟达,哪怕是另一家美国芯片公司AMD的产品也无法做到平替。
因此,我认为算力依然是未来人工智能竞争的最重要方向。哪个国家、哪家企业能够掌握足够的算力基础设施,便能在人工智能赛道脱颖而出、保持领先优势。
算力芯片考验的是半导体产业的综合能力,我国近年来虽然取得了长足的进步但和美国为首的西方产业链比较还是有差距的。
我们绝不能因某个大模型的亮眼表现而转换思路,减少对半导体行业的投入。相反,应该加大各项资源倾斜程度,争取在境内尽早诞生英伟达、ASML、台积电这样的企业。
当然,正如本文开头说过的,DeepSeek的牛逼之处是开辟了一条训练大模型的新路径,这条路的成本虽低但效果不差。全球资金规模有限的中小企业是可以借鉴的,顺着DeepSeek探索出来的路行走,他们也能训练属于自己的大模型,甚至搭建原本想都不敢想的数据中心。
以上纯属个人观点,欢迎关注、点赞,您的支持是对原创最好的鼓励!