本届广州车展,极氪没有亮相新车,因此展台的主要看点还是在智驾方案的发布。
有人说,极氪智驾支楞起来了!怎么说呢?你要说极氪完全达到标杆(HW)水平,现阶段肯定不现实。
但是客观地说,极氪智驾应该是新势力车企中用时最短,且最见成效的那一家。
极氪车友都知道,极氪早期智驾方案用的Mobileye,后来因各种原因(参考我另一篇文章《极氪快!还需稳》)不得不“两条腿走路”。
开启自研这套方案后,这个负责人是来自华为系的陈奇,不用说,时间紧任务重,从决策到量产交付,人家就用了四个月。
当然交付上车肯定还有些不完美。至少来说,智驾这套方案不依赖别人了,小步快跑的也能跟上国内技术演进的节奏。
接下来,咱俩聊一聊极氪本次车展发布的浩瀚智驾2.0端到端Plus架构。
现在,端到端显然已经成为了智驾领域头部玩家的门票,有实力的都要搞,极氪自然也不会落下。
啥是端到端?简单来说,端到端=抛弃规则。
之前的智驾方案的链路,至少要通过三步。从感知—决策—控制后完成智驾闭环,语言和信息格式相对固定,规则也都是程序员事先写好的,如果某一个突发路况没有规则,那系统就无法决策。
端到端方案,则是通过一个完整的深度学习神经网络模型,整合了感知—决策—控制等多个模块,将传感器采集的原始数据直接输入大模型,经过处理后直接输出操作指令。
这样无论在计算、效率、全局观以及拟人化上都具有更加明显的优势。
极氪做端到端的思路比较拟人化,它将整个方案比作人类大脑。
其中,端到端大模型相当于大脑,多模态大语言模型(MLLM)相当于小脑,但是只有大脑+小脑的组合还不完整,需要一个类似海马体的部分,这就是数字先觉网络。
它相当于电脑的缓存,可以将长期沉淀下来的重要数据信息保存下来,并为“大脑+小脑”提供依据和决策参考,你可以将其理解为积累“经验”。
首先,在端到端部分,极氪将其分为两个大模型:
第一个是感知端到端模型(SCM),基于感知的数据,对单个目标以及目标之间的关系进行识别,目前以已经可以认知理解的交通场景超过1000种,准确度相比之前提升了120%。
第二个是规控模型端到端模型(IPM),这其中融合了预测、决策与规划,可以让智驾最大程度还原人类驾驶的交互行为。
例如,在车流量大的路段并线,通过一个轻微的变道行为提醒其他车辆,判断后方是否会礼让,再采取下一步动作。
它可以提前1.2秒,对周边车辆和行人的行为进行预测,准确性提升了21%。大幅提升交互博弈和路径规划的能力,碰撞风险减少28%以上。
多模态大语言模型(MLLM),则相当于人的思考和推理能力,当端到端大模型遇到问题时,MLLM可以给出建议,让端到端处理的更好。
与视觉大语言模型(VLM)不同的是,多模态大语言模型(MLLM)信息源更丰富,包括如图像、视频、点云、3D空间深度信息、导航、音频等多维信息。
利用这些信息,大语言模型可以全面理解物理世界和运动规则,具备非常强的自预测和推理能力。
例如,车辆进入公交车道,系统会思考为什么车道的颜色和普通车道颜色不同,需要识别车道上的文字,判断是否属于限行车辆,最后再对比一下限行时间,最终做出正确决策。
最后,我们再聊一下数字先觉网络,它也分为两部分:
一部分是人驾经验与轨迹,这部分积累下来的数据会放在云端大模型中训练,沉淀下来的是类似于老司机的肌肉记忆。
还有一部分是环境与时空信息,例如,被树叶遮挡的红绿灯,坑洼车道的路段,经常窜出行人的路口,临时施工的路段等。
这些信息都会沉淀为先觉经验,它们会比“感知”更早的做出决策,减少陌生环境带来的驾驶风险并提高通行效率。
此外,数字先觉网络未来还会形成千人千面,不同城市、不同的人驾驶风格,模型经过训练后会有针对性地进行适配与覆盖。
基于以上各模型,极氪还设计了一个安全底线模型用于安全兜底,当大模型出现问题时,安全底线模型会及时介入,纠正错误的输出结果或决策建议,保障系统的正常运行。
目前,极氪无图城市NZP已经开启公测,在今年年底会进行全国全量推送,覆盖范围达到全国100%城市、乡镇及村落,道路上除了省道乡道,基本上能走车的道路都可以支持。
明年初,还会分批推送车位到车位(D2D)的能力,这是一个智驾行程的闭环场景。
当你在车位出发时,激活NZP起步,过程中理论上不需要任何接管和操作,直到车辆到达目的地停车位,手动切换到P挡结束。这一过程中,还要解决不同车位、停车场、过闸机、ETC等等环境问题。
以上,就是本次发布浩瀚智驾2.0端到端Plus架构的核心信息,如果你也有关于极氪智驾的信息要说,欢迎评论区留言讨论!