Q:DeepSeek和普通的AIGC有什么区别?
A:DeepSeek也属于生成式AI,有几个不同:
第一个是把成本拉低,是llama的1/11,用先进技术把推理速度降低,模型架构和大部分不一样,用细颗粒度MoE,先进模型基本都是邓氏架构,细颗粒度不是首创,阿里也在往这个方向走,这个架构在推理的时候只激活部分参数,在推理机制上引入LLA,市场上有几种,多头注意力等,需要每个参数都参与计算,而DeepSeek只激活低参数,降低成本;
第二个是训练方法,传统方法是FP32和FP16的混合精度,DeepSeek用FP8参数,比较敏感的组件还是FP16,分布式混合精度是目前做的比较少的,训练方法里面也有工程优化,之前时延导致GPU利用率不是很高,DeepSeek用流水线并行,高效利用通信网络,提升速率;
第三是编程上面也有很大不一样,此前用CUDA,DeepSeek用PTX,PTX本身是CUDA的一部分,用更细颗粒度来调度底层单元,将硬件调度细化,是传统方法用的比较少的;
第四是AI Infra,通常集群是三层网络,DeepSeek是两层,通信库降低PCIE消耗,减少GPU内存消耗增高网络通信速度,HF Reduce、分布式文件系统、调度平台用的比较灵活。
Q:国内所有的训练公司是否可以复制,大幅减少GPU需求?
A:DeepSeek用PTX进行优化,PTX并不是绕过CUDA,是CUDA的一部分,PTX更底层一些,并没有100%用到CUDA标准库,到硬件底部调动硬件模块,还属于CUDA的组件,从这个角度来说是没办法马上复制到昇腾和AMD,PTX技术还是仅限于NVDA,跨生态还是有困难,没有把数据开源,只是把方法开源,方法可以参照,并非100%复制,部分复制的衍生模型会比较快。
Q:DeepSeek大概降低了多少训练成本?
A:QWEN没计划这么快发布2.5MAX,大厂本来计划一季度后半期,公开版本最大72B,中间用的卡数量是6000级别的,我们是有A800、H800混合组网,大概是1:3如果要量化的话。
Q:国内的水平大概如何,和海外相比大概有多少成本降低?
A:DeepSeek的600万美金是V3模型本身,V3模型是迭代出来的,把之前的模型加起来的话,成本至少是目前的3-5倍,小2000万美金肯定要的,和Llama3相比,大概1:4左右,因为DeepSeek没有太多公开数据,OpenAI主要是6000多张卡3个月以上,肯定是DeepSeek的好几倍。
Q:当用户量起来之后DeepSeek是否有很大的扩容需求?
A:在最接近看到的是能力下降,因为用户量增长的比较猛,增长了十几倍,本身是推理集群没有ready,深度推理和联网都用不了了,推理需求上来之后没有做到弹性扩容,暂时关闭了联网功能,从这个角度来看,虽然训练成本低了,杰文斯理论来看,门槛降低之后对算力是利好的,普及度提升,对DeepSeek来说要迅速扩容,不然会损失用户数。
Q:本质上的框架还是基于英伟达的GPU芯片?
A:是的,还是CUDA生态。
Q:对芯片的依赖度会降低?
A:这个解读肯定是有问题的,他们还是在CUDA上做工作,其他公司没有在PTX上面进行,当大家看到之后,肯定会往这个方向做投入,用算法优化来提升性能,掌握方法之后会起来的很快,硬件的抄袭很困难甚至不可能,未来也会用CUDA来编程,国产在做芯片设计的时候会沿着这个思路去设计芯片,但取代不了。
Q:国产芯片是否存在一定的成长空间?
A:有的,低精度没那么大差距,FP8和FP16就可以做训练,芯片硬件差距下,用性能比较差的芯片也可以设计低精度模型,逻辑是通顺的。
云计算大厂后面肯定都会支持DeepSeek,在MaaS上上线,2024年国产芯片牵引模型,接下来DeepSeek指引了方向,加上了算法优势,用性能稍微低的芯片来测试模型也是趋势。
在接下来2-3个季度,大厂也会发布国产相关方案出来,除了CUDA以外。
Q:推理芯片需求量会增加?
A:DeepSeek出来之后模型市场有几点变化:
对MaaS有一点冲击,DeepSeek会进入所有MaaS平台;
工具链上,会提供DeepSeek的调优工具;
出现非常多基于DeepSeek的衍生版本,很多都会基于DeepSeek的模型来蒸馏,牵引此前的垂直版本,版本出来之后用比较低的成本部署并商用,推理侧B端和C端商用。目前ToC端推理成本比较贵,现在可以用比较好的方式来获取用户,会出现大量的应用爆发。
DeepSeek出来之后会出很多Agent和AI应用,生态会繁荣起来,要准备足够多的算力来支持。
Q:训练端的芯片是否会增加?
A:预训练可能不会增加,后训练可能会增加,但占比没有推理侧高,今年主要还是73开,7还是推理。接下来DeepSeek已经把预训练做完了,接下来后训练做行业垂类模型,老版本迭代进行后训练需求。
Q:AIDC的需求情况?
A:AIDC市场即使没有DeepSeek出来,大厂也有预算,字节按照10万亿或者20万亿来消耗,接下来可能会做调整,DeepSeek没有出来之前的预测可能要调整,此后会有增长,总体来看会有更多的增长和需求,业务爆发要比预期快。
Q:优化主要集中在哪些环节?
A:DeepSeek给我们的指引是,改变了堆算力的想法,把算法的权重增加,用算法来抵消算力不足,工程排第二,通信调度等,第三才是硬件。
Q:DeepSeek产业链和传统的算力产业链有什么增量环节?
A:分上中下来说,在训练侧会减弱但推理侧会增长,上游需求并不会减少,DeepSeek后续要扩容,还是会带来硬件增长,会有很多基于DeepSeek进行软件开发的需求,比如微调等,比如MaaS平台需求,之前要选很多模型,现在减少了选项;后训练中会用到模型API,有很多要用到R1模型进行深度推理,此前大模型给做科研,研发,分子结构预测等用不到,现在可以用到,所以会出现基于R1的很多需求,接下来会用R1辅助科研等,今年在这个赛道会起来。
Q:是否会降低高性能算力需求?
A:未来半年会逼着团队降成本,大厂会修改一部分预算assign到算法优化,随着行业掌握方法之后,就会开始新一轮的竞赛,训练成本和推理成本会下降,拉动整个行业增长,所以长期来看英伟达产业链地位并不会有变化。
Q:阿里本身的MAX大概什么时候发布?
A:大概提前一个半月发布。
Q:是否仍然会有囤卡的现象?
A:在算法领先的时间窗口,会被复制和超越,有两个背景,美国会收紧,还有90天缓冲期,如果有渠道的厂商,如果看到了行业逻辑,就会一定去买,有渠道买应该也会买,硬件还是有很大差距。对英伟达来说,一年时间段为维度NVDA还不会有很大的地位变化。
Q:未来行业的趋势?
A:DeepSeek也发布了多模态模型,能够做图像生成,这样的模型出来之后加快了多模态速度,之后会往多模态去走,端到端多模态以及衍生出来的产品,Token比文本模型多很多,从当下而言,DeepSeek划好了分水岭,开源模型超越闭源模型是趋势,多模态速度普及提升也是一个方向,占比来说多模态的算力消耗是文本模型的10倍左右,推理算力消耗是此前的好几倍。
Q:铜连接需求的变化?
A:铜连接本身做节点级别的链接,会跟着数量来变动,基于我们前期的判断来看,中长期来看,不会减少,机架扩容的时候还是用低成本方式来组网。
Q:互联网大厂未来的资本开支分配和节奏?
A:有些是美股上市公司,Q1做下个年度的预算,在讨论大致数字,因为DeepSeek东西插进来之后肯定会重新讨论,ALI之前讨论300亿元,加上液冷、交换机就是460亿,现在在讨论要不要这么多,不会大规模下降,也不会猛增,有一些博弈,大概率技术还是会坚持甚至追加,要财务跟技术共同协商。其他大厂来说,我的预计,百度今年不到100亿,不会猛增,字节最猛,阿里排第三,35%-40%增长,激进一些的话就是50%以上,腾讯排第二。