极氪，用大脑做智驾模型

本届广州车展，极氪没有亮相新车，因此展台的主要看点还是在智驾方案的发布。

有人说，极氪智驾支楞起来了！怎么说呢？你要说极氪完全达到标杆（HW）水平，现阶段肯定不现实。

但是客观地说，极氪智驾应该是新势力车企中用时最短，且最见成效的那一家。

极氪车友都知道，极氪早期智驾方案用的Mobileye，后来因各种原因（参考我另一篇文章《极氪快！还需稳》）不得不“两条腿走路”。

开启自研这套方案后，这个负责人是来自华为系的陈奇，不用说，时间紧任务重，从决策到量产交付，人家就用了四个月。

当然交付上车肯定还有些不完美。至少来说，智驾这套方案不依赖别人了，小步快跑的也能跟上国内技术演进的节奏。

接下来，咱俩聊一聊极氪本次车展发布的浩瀚智驾2.0端到端Plus架构。

现在，端到端显然已经成为了智驾领域头部玩家的门票，有实力的都要搞，极氪自然也不会落下。

啥是端到端？简单来说，端到端=抛弃规则。

之前的智驾方案的链路，至少要通过三步。从感知—决策—控制后完成智驾闭环，语言和信息格式相对固定，规则也都是程序员事先写好的，如果某一个突发路况没有规则，那系统就无法决策。

端到端方案，则是通过一个完整的深度学习神经网络模型，整合了感知—决策—控制等多个模块，将传感器采集的原始数据直接输入大模型，经过处理后直接输出操作指令。

这样无论在计算、效率、全局观以及拟人化上都具有更加明显的优势。

极氪做端到端的思路比较拟人化，它将整个方案比作人类大脑。

其中，端到端大模型相当于大脑，多模态大语言模型（MLLM）相当于小脑，但是只有大脑+小脑的组合还不完整，需要一个类似海马体的部分，这就是数字先觉网络。

它相当于电脑的缓存，可以将长期沉淀下来的重要数据信息保存下来，并为“大脑+小脑”提供依据和决策参考，你可以将其理解为积累“经验”。

首先，在端到端部分，极氪将其分为两个大模型：

第一个是感知端到端模型（SCM），基于感知的数据，对单个目标以及目标之间的关系进行识别，目前以已经可以认知理解的交通场景超过1000种，准确度相比之前提升了120%。

第二个是规控模型端到端模型（IPM），这其中融合了预测、决策与规划，可以让智驾最大程度还原人类驾驶的交互行为。

例如，在车流量大的路段并线，通过一个轻微的变道行为提醒其他车辆，判断后方是否会礼让，再采取下一步动作。

它可以提前1.2秒，对周边车辆和行人的行为进行预测，准确性提升了21%。大幅提升交互博弈和路径规划的能力，碰撞风险减少28%以上。

多模态大语言模型（MLLM），则相当于人的思考和推理能力，当端到端大模型遇到问题时，MLLM可以给出建议，让端到端处理的更好。

与视觉大语言模型（VLM）不同的是，多模态大语言模型（MLLM）信息源更丰富，包括如图像、视频、点云、3D空间深度信息、导航、音频等多维信息。

利用这些信息，大语言模型可以全面理解物理世界和运动规则，具备非常强的自预测和推理能力。

例如，车辆进入公交车道，系统会思考为什么车道的颜色和普通车道颜色不同，需要识别车道上的文字，判断是否属于限行车辆，最后再对比一下限行时间，最终做出正确决策。

最后，我们再聊一下数字先觉网络，它也分为两部分：

一部分是人驾经验与轨迹，这部分积累下来的数据会放在云端大模型中训练，沉淀下来的是类似于老司机的肌肉记忆。

还有一部分是环境与时空信息，例如，被树叶遮挡的红绿灯，坑洼车道的路段，经常窜出行人的路口，临时施工的路段等。

这些信息都会沉淀为先觉经验，它们会比“感知”更早的做出决策，减少陌生环境带来的驾驶风险并提高通行效率。

此外，数字先觉网络未来还会形成千人千面，不同城市、不同的人驾驶风格，模型经过训练后会有针对性地进行适配与覆盖。

基于以上各模型，极氪还设计了一个安全底线模型用于安全兜底，当大模型出现问题时，安全底线模型会及时介入，纠正错误的输出结果或决策建议，保障系统的正常运行。

目前，极氪无图城市NZP已经开启公测，在今年年底会进行全国全量推送，覆盖范围达到全国100%城市、乡镇及村落，道路上除了省道乡道，基本上能走车的道路都可以支持。

明年初，还会分批推送车位到车位（D2D）的能力，这是一个智驾行程的闭环场景。

当你在车位出发时，激活NZP起步，过程中理论上不需要任何接管和操作，直到车辆到达目的地停车位，手动切换到P挡结束。这一过程中，还要解决不同车位、停车场、过闸机、ETC等等环境问题。

以上，就是本次发布浩瀚智驾2.0端到端Plus架构的核心信息，如果你也有关于极氪智驾的信息要说，欢迎评论区留言讨论！

我国科学家攻克又一国际难题!