马斯克又给芯片团队打广告招人了,同时称AI5是所有推理芯片中,对参数低于2500

冥王星的主人 2025-09-07 14:19:54
马斯克又给芯片团队打广告招人了,同时称AI5是所有推理芯片中,对参数低于2500亿模型来说是最好的,成本最低,性能功耗比最高。 老马等于又解释了一遍解散Dojo团队的原因,还是那四个字——推训一体,一个芯片架构实现两种芯片目的, Dojo 训练芯片和 AI 系列推理芯片合二为一。 芯片的大趋势正在从之前我们说的从训练转向到推理,进一步转向为 “推训一体” 。 比如,有消息指出谷歌的TPU正在爆发,OpenAI也开始自研芯片,直接和博通合作,ASIC芯片和GPU的战争还在扩大。 我们以谷歌的 TPU 为例,在适配的深度学习训练/推理上,TPU 能效与吞吐更优;但GPU在图形渲染、通用计算、多框架生态与非张量负载上具有不可替代的优势 。 TPU 暂时还不能完全取代 GPU,二者设计目标不同:TPU为“张量/深度学习”定制,GPU为“通用并行+图形”设计,后者在非张量与图形路径上无法被替代 。二者的生态与可获得性不同:GPU在多框架、驱动/工具链、云端与本地集群的覆盖度远高于TPU,迁移与运维成本更低 。二者的应用广度也有差异:除AI外,渲染、编解码、HPC等场景依赖GPU的原生能力与生态,TPU难以涉足 。 最简单直白的说,选型时,如果你以DNN训练/推理、且可在Google Cloud/自家数据中心用TensorFlow/XLA为主:优先评估TPU,追求能效与吞吐 。如果涉及图形/渲染、通用计算、多框架或需要跨云/本地灵活调度,优先GPU,保障通用性与可维护性。 但是,我们换个角度,如说说,AI的尽头是能源电力,TPU就远胜GPU了。想想谷歌谈及能耗时的一脸轻松。 在典型深度学习负载下,TPU的单位算力能耗(能效比)显著低于GPU,通常能达到约3–5倍更优;个别早期对比称有数十倍差异,但更稳健的工程结论是3–5倍区间 。 为什么TPU更省电 专用架构,面向张量/矩阵乘加高度定制,减少通用控制与缓存开销,把芯片面积与功耗集中在计算与近存 。 脉动阵列+流水线,数据在阵列内“流动”计算,减少片外访存;访存往往比计算更耗电,降低访存即大幅省电 。 低精度与量化,以INT8/FP16/BF16为主,算术单元更小、带宽需求更低,进一步提升能效 。 提前编译与确定性执行:配合XLA等把计算图转为高效静态执行,减少动态调度与分支开销,让芯片接近峰值吞吐运行 。 片上大内存与近存计算:以较大片上存储(如CMEM/VMEM/SMEM)提升数据复用,降低对HBM/DDR的依赖与功耗 。 但是,也不是说“TPU总功耗一定更低”,而是“在适配的深度学习负载下,TPU每单位算力的能耗更低”,靠专用架构、脉动阵列、低精度与近存计算、确定性执行等共同实现 。 关键是场景匹配,越接近“大矩阵乘+卷积+低精度”的典型DNN模式,TPU能效优势越大;若负载大量非张量/动态分支/高维稀疏,优势会收敛 。 回到投资角度,一句话,不能只看英伟达,忽视了博通。 AVGO大涨,而AMD和NVDA齐跌,定制化AI芯片抢走通用芯片的市场的事会不断发生。
0 阅读:11

猜你喜欢

冥王星的主人

冥王星的主人

你喜欢的,就是我想创作的