理想「端到端+VLM」全量推送，把智驾又卷上了新高度

‍作者 |德新

编辑 |王博

上周，理想汽车官宣了一则重磅消息：全新一代双系统智能驾驶解决方案「端到端+VLM」，全量推送。

在智驾技术日新月异，各种版本的早鸟测试层出不穷的当下，「全量推送」4个字，显得弥足珍贵，尤其是这个消息紧接着理想第100万台交付。

这标志着理想汽⻋的智能驾驶，率先进入AI大模型时代，也意味着大规模的车主（超过30万台AD MAX车辆），用上了这个时代最前沿的技术。

端到端的系统，核心是基于优质驾驶数据和大模型，让机器学习像人一样思考、开车。

迈入「端到端+VLM」的阶段之后，理想智驾的场景覆盖率、舒适度和通行效率都有跃级式的提升。

按照30多万的车主规模来计算，这应该也是目前国内规模最大的向用户开放的端到端智驾版本。

理想这次全量推送的版本，基于整车OTA 6.4，智驾软件版本则是E2E-VLM V4.8.6。版本号中的第一个4，代表了是基于400万 clips 视频数据训练的版本。

Elon Musk曾经谈到数据规模对于端到端自动驾驶表现的影响：「用100万个视频训练，勉强够用；200万个，稍好一些；300万个，就会感到Wow（惊艳）；到了1000万个，就变得难以置信了。」

而这次推送的400万Clips的版本，刚好跨过了Musk口中所说的令人惊艳的节点。

理想汽车从7月5日发布了第一个「端到端+VLM」的版本，7月30日开启千人内测，8月底开启万人公测。李想曾经在演讲中披露，「最快今年，最慢明年上半年」开启全量推送。

实际上，这次全量推送的日期甚至提前了不少。

这某种程度上也说明，「端到端+VLM」这套方法的能力增长超过预期。

理想汽车智能驾驶研发副总裁郎咸朋曾经说，「表面上端到端是一个大模型替代几个小的模型，实际上它是一个分水岭。从端到端开始，真正标志着用人工智能的方法来做自动驾驶。」

一、行业首创架构，「端到端 + VLM」的迭代速度

伴随着「端到端+VLM」的全量推送，理想也公布了一些数据阐述这个新系统进化的速度：比如，从7月5日发布最早的鸟蛋版本开始，理想智驾团队做了30个研发版本的模型迭代。

将近3个半月时间，有30个研发版本迭代，意味着几乎每3天就有一个新版本。

而理想的千人内测和万人公测，采用了AB测试的方法，「模型架构优化」与「更多数据训练」同步进行。

（譬如在100万Clips规模的版本1.1.x版本上迭代1.2.x和2.1.x），同时探索模型架构和数据量增长带来的效果提升。

从实际运行效果来看，理想智驾系统的MPI（平均接管里程）得到了大幅提升，期间用户平均接管里程翻了2.5倍。

理想曾经公布过E2E-VLM 1.0的MPI大概在12公里左右，也就说现在的平均MPI提升到了接近30公里。

目前，理想可用于智驾训练的用户里程数已经超过25亿公里，这个数字到年底将增长到30亿公里；当前有5.39 EFlops的云端训练算力储备，到年底将达到8 EFlops。

这些数据都说明了，目前这套系统的迭代速度和能力增长非常快，并且后续提升的空间依然非常巨大。

高速迭代的智能驾驶也给理想卖车带来了直接的收益：

自5月门店试驾车升级无图NOA功能以来，NOA试驾率翻倍增长；AD Max定单比例也显著增长；10月，30万元以上车型AD Max定单占比达到70%。二、理想最新智驾，实际体验如何？

在过去几个月里，HiEV大蒜粒车研所的编辑也分别体验了理想「端到端 +VLM」的多个版本，包括8月初的E2E-VLM 1.0，以及10月的4.8.6和5.1。

从最初在北京顺义理想总部附近的路线体验，当时端到端还是初出茅庐，偶有惊喜。

到后续，在海南、上海以及江苏驾驶，可以说现版本的E2E-VLM已经能够应对日常城市驾驶中的绝大部分场景，单次行程的NOA覆盖率基本上能达到90%以上，甚至95%以上。

总体来说，「端到端+VLM」最直观的感受是：

它对于时机和速度的控制变得更加精准；规划路径的灵活性非常高，不机械；横纵向的控制更加丝滑。

这尤其体现在一些复杂大路口和博弈场景：

大路口左拐的路径更加合理，并且会根据车流选择通过的时机和路线；路边右侧有停车时，即使在后方有车流的情况下，绕行的提前量和时机非常灵活，窄路下甚至会稍稍借用对向车道绕行；甚至高速场景下也有变化，比如下匝道时，不再按之前固定2公里提前向外变道，而是很灵活地选择通行效率更高的点位。

理想独有的系统2 VLM，在整个体验中，感受也很明显：

在通过高速收费站时，是利用VLM来识别收费站的环境，选择ETC车道通过，并且能识别闸机抬杆；识别丁字路口时，对后方来车会放慢速度，选择通过的时机；路过学校路段，也会有主动提醒。

这版的车机界面，也非常克制。

因为城区内场景非常密集，要同时兼顾及时准确地告诉用户当前的系统状态，也要避免对用户过多不必要的打扰。

三、超过30万用户，理想的端到端如何做到「又快又多」？

目前在国内，仅有理想、华为、小鹏三家推送了端到端的智驾方案。

十一期间，华为公布其ADS的用户总量约为27.8万。搭载了端到端智驾的ADS 3.0首批推送给了享界S9、阿维塔12，并陆续向问界M9/7/5开放；小鹏则是从AI天玑5.2.0版本开始搭载端到端智驾，其支持城市NOA的车型主要是P7i/G6/G9/X9的Max版本。

所以按照用户规模来讲，超过30万用户的理想ADMax，应该是目前国内用户推送量最大的端到端智驾系统。

这次端到端推送量大管饱，迭代速度又快，理想一方面非常得益于高度平台化的车型设计。

L9/8/7/6乃至MEGA的智能驾驶系统共用同一套软硬件，从智驾版型来说，理想只有AD Pro和AD Max两个版型，集中力量办大事，这大幅提升了新系统的开发效率。

不同于特斯拉一体化大模型的思路，理想的双系统是一个开创性的方案：

端到端模型是一个实时的系统1，参数规模在3亿左右；VLM模型运行帧率在3 - 4赫兹，是一个准实时的系统，参数规模在22亿上下。

这套设计，也解决了当前车端算力有限条件下，兼顾了「高上限」和「安全兜底」的难题。

按照理想此前的预估，在1000万级Clips的节点上，其有可能将MPI进一步提升至百公里级的水平。

在更长的周期内，理想汽车的2030愿景是成为全球领先的人工智能企业，其中智能驾驶将是最核心的方向之一。

世良情感网

理想「端到端+VLM」全量推送，把智驾又卷上了新高度

HiEV大蒜粒车研所