编辑导语:目前国内汽车智能算力仍存在结构性短缺,软件生态完善的“成熟”算力缺口较大。
北京时间10月11日,备受期待的特斯拉“We Robot”发布会如期而至。
发布会上,特斯拉CEO埃隆·马斯克(Elon Musk)向世界展示了公司在自动驾驶和人工智能领域的最新成果:推出了三款革命性产品:Cybercab、Robovan和Tesla Bot,每一款都以其独特的创新和前瞻性,其中完全依赖特斯拉的全自动驾驶(FSD)软件的Cybercab无人驾驶出租车,引发诸多讨论。
鉴于当前国内智能驾驶企业都不约而同向端到端靠拢,不由引发了关于特斯拉FSD技术和国内端到端技术有何差距,孰强孰弱的思考。
技术不同但仍有差距
“国内的端到端和特斯拉的FSD是有差异的。”一位自动驾驶从业者告诉中车网,特斯拉的FSD不再将AI分为一个个模块,而是给了它一个神经网络。采用BEV(Bird's Eye View,鸟瞰模式)、Transformer(一种新型神经网络架构)的技术架构,从而实现了“端到端”。
简而言之,特斯拉仅仅依靠摄像头获取图像数据后,可以自己输入进算法,再自己输出加速、减速等指令。由此,AI可以进行感知并模拟人类的驾驶决策,按照人类的方式控制车辆。
而目前国内主流的端到端技术各有不同,但总体仍是以特斯拉端到端技术为底层逻辑,将从前感知、传输、决策等小控制单元组成模块化,从而实现端到端。但不同的是,特斯拉使用的是完全视觉化,而国内的企业如华为等,在感知层面仍依赖于激光雷达、毫米波雷达等。
虽然路线的终点都是“端到端”,但自动驾驶从业者王先生仍不由感慨:“我们的原创性技术创新能力比较弱,一般都会跟随国外顶尖厂商的先进技术路线去探索,比如特斯拉。悲观地看,相较之下我们技术进展晚了一年左右。”
他坦言,做端到端,是顺应趋势。“端到端是更加接近人类驾驶行为的高阶智驾,端到端模型上车,是带领智能驾驶迈向高阶的康庄大道。”
但尽管是未来趋势的技术路线,国内的端到端和特斯拉FSD还有着一定的差距。首先是数据方面,以自动驾驶Clips(有效视频片段)数据作为对比,国内企业不足百万个有效视频片段,而特斯拉已经拥有超过1000万个有效视频片段数据。目前,国内车企的绝大部分数据分布在密集的几个场景,“头部效应”明显。与此同时,不同车型传感器配置不一,采集的数据存在差异,数据复用性差。此外,车企在数据梳理、价值挖掘方面能力积累和沉淀不足。
上述自动驾驶从业者表示:“当下在感知端,小鹏、理想汽车、蔚来等车企都采用BEV+Transformer架构,而在下游规控环节仍使用规则,这使得国内新势力们与特斯拉的端到端方案仍相差不少距离。这是国内新势力车企们要追赶的方向。”
算力紧缺成主要矛盾
其次,在算力层面,特斯拉拥有的算力水平已经达到100 EFLOPS,是所有车企所拥有的算力的总和。目前华为的算力水平也只有7.5 EFLOPS,与特斯拉相比差距明显。
在信息时代,算力就是生产力。在智能汽车下半场,各大企业之间比拼的就是AI和算力。可以说,芯片算力一定程度上决定了智能汽车的智能化极限,算力越高,汽车智能水平潜力越大。
随着汽车与AI深度融合,端到端智能驾驶、座舱大模型等加速上车,汽车产业对智能算力的需求快速增长。然而,目前国内汽车智能算力仍存在结构性短缺,软件生态完善的“成熟”算力缺口较大。
中国电动汽车百人会副理事长兼秘书长张永伟表示:“在人工智能时代,汽车企业缺的不是产能,当下汽车行业最缺的是智算基础设施,国内汽车行业的主要矛盾是智能算力存在结构性短缺。”
张永伟称,要完成端到端智能驾驶的研发和训练,智能算力的需求至少要达到1 EFLOPS,目前车企的平均算力是3 EFLOPS,然而就一个端到端大模型而言,一个企业需要的算力就达到100 EFLOPS。“没有几千或者是上万张卡的算力集群,没有几千上万的算法团队,企业很难在新的赛道上形成竞争力。”
上述自动驾驶从业者表示,随着自动驾驶技术的发展,对车载计算平台的算力要求也在不断提升。
目前,国内车企的算力主要依赖于英伟达等国外芯片供应商的存量芯片,而这些芯片在当前国际形势下变得难以获取。此外,国内运营商虽然规划了一定的算力规模,如中国移动、中国电信、中国联通分别规划了17 EFLOPS、21 EFLOPS和15 EFLOPS的算力,但这些算力主要集中在云端,且难以满足车企在车载算力方面的需求。
中车网了解到,国内车企的算力来源主要包括车载算力和云端算力两部分。
车载算力主要通过安装在车辆上的计算芯片来提供,如NVIDIA DRIVE Orin SoC,它提供了254 TOPS的算力,能够支持自动驾驶功能、置信度视图、数字仪表盘以及AI座舱等应用。
而特斯拉的算力支持主要由D1芯片、训练模块和超算Dojo构成。D1处理器采用台积电7nm制造工艺,拥有500亿个晶体管,单片FP32算力为22.6TOPs,BF16算力为362 TOPs。此外,特斯拉通过将多个D1芯片组成训练模块,每个模块的算力高达9 PFLOPs。
由此来看,差距颇为明显。为此,业内人士表示,从当前来看,国产车企想要在算力上迎头赶上,不仅要应加大在自动驾驶专用云端算力芯片与计算集群方面的自研力度,更要加强与科研机构、高校及科技企业的合作,共同研发优化算法,提升软件的智能化水平,从而更高效地利用算力资源。