7月5日晚,理想汽车举行智能驾驶夏季发布会,宣布将于7月内推送OTA 6.0,其中AD Max智能驾驶将全量升级为“全国都能开”的无图NOA。
此次升级将覆盖理想MEGA和理想L9、理想L8、理想L7、理想L6的AD Max车型。该公司的产品高级副总裁范皓宇透露,理想AD Max的用户数量超过24万。这是理想汽车首次披露AD Max车型的具体数量。
同时,理想汽车还发布了基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构,并开启新架构的早鸟计划。
无图NOA
在此之前,理想汽车于今年5月10日开启1,000名用户体验,6月17日推送10,000人体验,6月28日开始向所有用户不限量招募。
从千人体验万人体验,再到不限量招募的节奏非常快,侧面说明理想无图NOA的进展超过预期。
范皓宇介绍称,最新的无图NOA相比过去的版本,BEV、感知能力、规控能力,还有整体系统能力都得到全面的提升,可以应对更多的条件和环境。“全国都能开”,是指不管是在城市、城镇,还是二级道路,都能够行驶。
相比过去的版本,理想汽车将无图NOA的能力总结为以下4点:
1.哪里都能开,不再依赖过多“先验信息”。
理想汽车的智能驾驶系统内部,可类比为有很多“小机器人”在运行。在之前的版本中,有一些“小机器人”需要一些先验信息。随着整体能力的提升,需要先验证的情况越来越少,直到系统能自如地解决行驶中遇到的各种情况。
2.绕行丝滑,时空联合。
在实际道路上驾驶,会经常遇到一些车辆、行人等对象阻碍通行。这种情况下,车辆继续行驶就需要绕过障碍物。
绕行能力的背后是时空联合能力,即具备掌握时间和空间的能力。空间概念是横纵(前后左右)同步规划;时间概念是能够持续预测自车与他车的空间交互关系,并规划出“未来一段时间窗口内”的所有可行驶的轨迹,筛选出最优最高效的轨迹。
3.路口轻松,上帝视角。
车辆顺利通过路口的能力,背后的技术可描述为具备“上帝视角”的能力——将摄像头拼接的周边环境、道路信息、导航提供的轨迹和数据信息全部合并在一起,形成超视距能力,在通过路口的时候找到最优路线。
4.默契安心,分米级微操。
要开发出用户愿意用、依赖用的智能驾驶产品,系统首先需要给司机以安心感,进而最好还能与司机配合默契。
理想汽车介绍称,无图NOA重点考虑了用户心理安全边界的设计,将纯视觉Occ占用网络升级为Lidar与视觉前融合的占用网络,从而识别更大范围内的不规则障碍物,感知精度也会更高。
基于此,系统提升了可行驶区域内的安全性和连续性,可以做到分米级别的微操,从而实现默契和安心感。
主动安全
除NOA能力提升之外,理想汽车还重点介绍了在安全方面的进展。
在主动安全领域,车企将各种各样的安全风险场景用「危险程度」和「发生频次」两个维度进行划分。
理想汽车介绍称,通过过去几年的努力,理想的主动安全功能开发除了囊括高危高频、高危中频、中危高频风险场景之外,还进一步渗透到了高危低频、中危中频和低危高频的场景。
由此取得的效果是,2024年上半年里,理想汽车人类驾驶里程安全事故率降低30%,帮助用户规避了36万起潜在事故,误触发率小于1次/30万公里(统计口径为理想AD Max车型内部数据)。
理想汽车本次OTA 6.0推送的主动安全能力提升,主要包括AEB(自动紧急制动)和AES(自动紧急转向)两方面。
其中,在复杂路口AEB方面,行人、两轮车、三轮车典型的三种类型,从左、右、前靠近,理想汽车已做到全覆盖。当这三种对象从任何一个方向靠近时,如果它侵占了自车的安全系统区间,理想汽车都会启动AEB帮助用户主动刹停。如果出现了在盲区的车辆,自车侵占了对方的安全性空间,理想汽车也会主动刹停。
夜间AEB方面:在高速上夜间行驶,周围基本上没有光照,前方不远处有一辆货柜车停着静止不动,没有开灯、没有反光条——在这种极限场景下,理想AD Max的AEB能做到120公里时速完全刹停;理想AD Pro的AEB可做到90公里时速完全刹停。
此外,全方向低速AEB,主要针对用户在日常生活的低速场景,特别是地库停车环境复杂的情况下,可能会出现比如柱子、墩子等障碍物。理想汽车的低速AEB,在以上情况都可以刹停,避免剐蹭。
本次着重升级的全自动AES,可实现不依赖人辅助扭力的全自动触发,其典型场景为“消失的前车”:当我车和前车都以非常快的速度在高速上行驶,突然前前车急刹停,前车避让而我车距离很近不可能刹停时,理想汽车的AES可以使我车减速并急转避让过去。
端到端+VLM
理想汽车智驾技术研发负责人贾鹏,介绍了理想汽车三代智能驾驶系统架构的进化过程。
第一代:NPN(先验),采用模块化的设计,包含感知、定位、规划、导航、NPN等,依赖先验信息。这是截至目前“无图NOA”推送之前的架构。这一代技术支撑理想汽车在全国100个城市推送了城市NOA功能。
第二代:无图、分段式端到端。只有两个模型组成,分别是感知和规划。最大的变化是去掉了NPN,不依赖先验信息。这是本月即将推送给全量AD Max用户的技术架构。这一代技术让理想汽车真正实现了全国都能开、有导航就能开。
第三代:端到端模型。它是一个One Model的结构,只有一个模型,输入的是传感器,输出的是行驶轨迹。
当然,正如一个月之前李想本人在公开演讲中分享的,理想汽车认为,仅依靠One Model端到端还无法实现L4级以上的自动驾驶。理想的解决方案是“系统1+系统2”。
该自动驾驶理论来源于诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》一书中的认知心理学中系统1与系统2的概念,它为理解人类的认知模式提供了一个重要框架。
系统1是人根据自己过去的经验和习惯形成的直觉,可以做出快速的决策。
系统2则是思维推理能力,人需要经过思考或推理才能解决这种复杂的问题和应对未知的场景。
简言之,系统1和系统2相互配合,成为了人类认知和理解世界、做出决策的基础。
系统1和系统2是如何应用到自动驾驶中的呢?
系统1由一个端到端模型(E2E)实现,直接用来快速响应常规驾驶问题。
端到端模型的输入主要由摄像头和激光雷达构成,多传感器特征经过CNN主干网络的提取、融合,投影至BEV空间。为提升模型的表征能力,理想汽车还设计了记忆模块,兼具时间和空间维度的记忆能力。在模型的输入中,理想汽车还加入了车辆状态信息和导航信息,经过Transformer模型的编码,与BEV特征共同解码出动态障碍物、道路结构和通用障碍物,并规划出行车轨迹。
理想汽车称,端到端模型的优势有三:
1.高效传递,驾驶体验更聪明和更拟人。
在无图NOA中有两个模型,模型之间的信息传递,理想汽车运用了大量的规则;而到了端到端模型,它是一体化的模型,信息都在模型内部传递,具有更高上限——用户所能感受到,则是整套系统的动作、决策更加拟人。
2.高效计算,驾驶时车辆会反应更及时和更迅速。
因为是一体化模型,可以在GPU里一次完成推理,端到端的延迟会更低。用户感知到的是,「眼」和「手」协调一致,反应迅速,车辆动作响应及时。
3.高效迭代,更高频率的OTA。
一体化模型可以实现端到端的可训、完全的数据驱动。对于用户来说,最大感受就是OTA的速度越来越快。
系统2由一个视觉语言模型(VLM)实现,里面包含了思考的能力。
VLM视觉语言模型的算法架构由一个统一的Transformer模型组成,将Prompt(提示词)文本进行Tokenizer(分词器)编码,并将前视相机的图像和导航地图信息进行视觉信息编码,再通过图文对齐模块进行模态对齐,最终统一进行自回归推理,输出对环境的理解、驾驶决策和驾驶轨迹,传递给系统1辅助控制车辆。
理想汽车的VLM视觉语言模型参数量为22亿。更大的参数量有助于模型“记住”更多细节,从而更好地理解物理世界的复杂交通环境。
例如,VLM模型可以识别路面平整度、光线等环境信息,提示系统1控制车速,确保驾驶安全舒适。VLM模型也具备更强的导航地图理解能力,可以配合车机系统修正导航,预防驾驶时走错路线。同时,VLM模型还可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则,在驾驶中作出合理决策。
由于参数量巨大,视觉语言模型在分析驾驶场景时存在时延过长的问题。针对此,理想汽车在英伟达的帮助下,将原始VLM的时延从4.1秒(频率0.24Hz)优化到了最终上车的0.3秒(3.34Hz)。
理想汽车高级算法专家詹锟介绍称,理想VLM在设计中有三个亮点:
1.设计了流式的视频编码器。
相比大部分单帧的VLM模型,流式视频编码器能够缓存更长时序的视觉信息,这对于物理世界的AI系统来说非常重要,这是一个创新的架构。
2.增加了Memory bank(记忆模块),缓存了多帧历史信息,可以解决超长上下文的推理时延问题。
3.设计了智能驾驶Prompt问题库。
系统2会时时刻刻思考当前的驾驶环境,给系统1合理的驾驶建议,同时系统1也可以在不同场景下调用不同的Prompt问题,主动向系统2进行求助,帮助系统1解决部分场景。
系统1和系统2在车端运行,而理想汽车还在云端利用「世界模型」来验证系统1和系统2的能力。
系统1(One Model端到端自动驾驶模型)、系统2(VLM视觉语言模型)和云端的「世界模型」,三个系统组成了理想汽车下一代自动驾驶技术架构。
理想的世界模型结合了重建和生成两种技术路径,将真实数据通过3DGS(3D高斯溅射)技术进行重建,并使用生成模型补充新视角,两者结合所生成的场景既可以保证场景是符合真实世界的,也同时解决了新视角模糊的问题。
同时,这套系统的生成部分可以独立工作,通过Layout(布局)先验、再Reference(参考帧)的图片,再加上Prompt(提示词),生成符合真实规律但没有见过的新场景。
在场景重建时,其中的动静态要素被分离,静态环境得到重建,动态物体则进行重建和新视角生成,变成360°的新资产。再经过对场景的重新渲染,形成3D的物理世界,其中的动态资产可以被任意编辑和调整,实现场景的部分泛化。
相比重建,生成模型具有更强的泛化能力,天气、光照、车流等条件均可被自定义改变,生成符合真实规律的新场景,用于评价自动驾驶系统在各种条件下的适应能力。
重建和生成两者结合所构建的场景为自动驾驶系统能力的学习和测试创造了更优秀的虚拟环境,使系统具备了高效闭环的迭代能力,确保系统的安全可靠。
结语
理想汽车此次公布的智能驾驶进展,不仅在产品层面实现了“无图”和“全国都能开”,追平国内第一梯队,同时还在对新一代技术的分享中包含了非常多的技术细节。
其中,特别是与清华大学信息交叉学院赵行博士团队合作的“端到端+VLM”架构,是理想汽车在智驾技术领域冲在前沿的尝试,显示出理想旨在引领智驾技术路线的决心。
值得期待的是,这新一代的技术架构并非遥不可及的期货——发布会最后,理想智能驾驶副总裁郎咸朋宣布一个彩蛋:不仅无图NOA在本月全量推送,而且“端到端+VLM”架构的鸟蛋计划也开始招募。
· END ·