智能驾驶，驶向赛点

摘要：加速推进端到端方案的上车速度

文韩旭

车圈“流量大战”从北京蔓延到了深圳。

雷军、余承东、周鸿祎一个接一个来到了粤港澳大湾区车展，所过之处，人山人海，长枪短炮。

智能化技术解读，成为大会新的重点。

出席大咖们聚焦智能化，畅谈智能驾驶，并且就智驾下一阶段的发展方向，终于达成共识：

端到端。

新技术、新名词，围观者迷茫了：都在说端到端，什么才是真正的端到端？

一、何为端到端？

所谓端到端，指的是一种新型的AI模型，采用BEV+Transformer技术架构等方式来实现感知决策一体化，以达到输入原始数据后便能输出最终执行指令的效果。这项技术令该版本比以往减少了数十万代码，让汽车在没有数据连接的情况下仍可在不熟悉的路段地形上行驶。

真正掀起这轮“端到端”热潮的，还是特斯拉。

最近，特斯拉FSD V12在北美上线测试版本，全新升级的FSD，最大的卖点就是端到端的神经网络模型上车。

英伟达CEO黄仁勋将其称之为自动驾驶革命性的进步。

因为通过端到端，AI能够通过分析视频数据，来预测路径，理解和驾驶汽车。

我们通常理解的自动驾驶系统，分为感知、分析、决策三个模块独立运作，再通过系统集成，实现自动驾驶功能。

这和人类司机驾驶车辆的习惯是一样的，这样做的好处也很好理解，每一个环节特别清晰。

将一个复杂的系统，拆分为一个个相对简单的模块，降低了每个模块的开发难度。而且系统出现问题，容易找出源头。

模块化的背后，是大量的代码，大量的代码，意味着大量的人工，这时候弊端就出现了：上限不高，只能处理系统见过的场景，没见过的就束手无策了。

系统处理不了怎么办？只能再往里填更多的代码，靠冗长的代码来覆盖更多场景。最后整个系统越来越复杂，信息传递的效率比较低。

复杂场景算力需求太大，解决长尾场景的难度和成本都很高，端到端就是来解决这些问题的。

特斯拉通过端到端神经网络，将感知、分析、决策整合在一起，当输入传感器数据时，系统直接输出车辆控制信号，其中的过程减少了成堆的代码。

按照特斯拉的更新日志，模型经过数百万个视频训练后，可以减少30多万行C++代码。可以这样解释：特斯拉端到端的FSD系统，是将无数的人类驾驶的视频数据，压缩到了端到端神经网络中，所以效率更高当然是一方面，更符合人类驾驶的习惯，像真人一样开车，也是一个革命性的突破。

二、如何落地？

特斯拉是端到端自动驾驶的先行者，但并不是唯一的玩家。

因为特斯拉的进展，也受到在大洋彼岸的中国同行的密切关注。端到端也成为行业技术、产业进展的热门词汇，一场端到端的战斗已经山雨欲来。

而此前国内智能驾驶公司基本都追随谷歌Waymo路线，要追上特斯拉并不容易。

端到端方案如何实现？

元戎启行CEO周光认为，端到端并不是一个突然转变，而是一个循序渐进的过程，需要经历传感器前融合、去高精度地图、感知决策控制三个模型一体化等环节。

例如，在过往多模块方案中，高精度地图的一把不可缺少的“拐杖”。“但高精度地图是通过人去标注好道路结构和场景信息，系统根据人的标注去识别道路。这其实就是规则驱动。”周光说道。

而依赖人工规则的方法也决定了，高精度地图无法大规模使用：为了保持地图的更新，车企必须付出高昂的成本。高精度地图的采集制作成本大概在3000元/公里，如果一个城市按一万公里城市道路来计算，建图成本在3000万左右。

就连华为车BU董事长余承东去年也公开表示，高精地图覆盖全国的难度太大，中国道路几乎实时在变动，只有不依赖高精地图的智驾系统，才具备大规模上车使用的价值。

于是2023年，国内智能驾驶公司就开启了一场轰轰烈烈的“去高精地图”运动。一众公司纷纷效仿特斯拉，全面提升感知能力，大力学习基于Transformer的BEV、及Occupancy network（占据栅格）等技术。而升级后的感知算法模块，基本是全新的神经网络架构了。

换句话说，沿着BEV等感知技术方向，继续重构下游的规划控制等模型，智能驾驶公司有机会抵达“疗效更好”的端到端模型。据了解，到今年末，国内头部智驾玩家基本都有端到端方案推出。

但就目前而言，元戎启行是国内最快官宣端到端模型进展的自动驾驶公司。

近日，在英伟达主办的GTC大会上，元戎启行CEO周光表示，公司已经把端到端模型应用于量产车上，该批量产车将于今年投入消费者市场。

同时，元戎启行还与英伟达合作，将于2025年使用英伟达的DRIVE Thor芯片适配公司的端到端智能驾驶模型。

察觉到传统多模块方案的弊端后，元戎启行从2023年就推出了不依赖高精地图的智驾路线，让模型感知道路拓扑结构，让预测和规划由规则驱动变成了数据驱动。更早之前，元戎启行也已将多个传感器进行前融合，将感知数据放到一个神经网络里。

三、高阶智驾的最终解

目前，高阶智驾正在以超乎想象的速度推进。

极氪智能科技副总裁陈奇曾提到：2023 年12月，国内头部厂商高阶智驾选装率达到了48.73%，这相当于头部车企每卖出两台智能车，其中一台都具备城市NOA。

再过一个季度，头部车企们将会城市 NOA 进行全量推送，这将会是一场史上规模最大、难度最高的智驾检验：多数消费者与机器共驾的默契还有待提升，同时也要求车企能够用高阶智驾在复杂的城市道路中为用户安全兜底。

现阶段，从国内目前多家车企的城市 NOA 体验来看，多数遇到施工或道路有所更新的路段，几乎都需要接管。这也意味着，目前用户尚未享受到高阶智能驾驶尚未达到用户眼中的“可用”“好用”。

一个完善的端到端模型，将会在消费端为用户智驾体验带来质的改变。这里存在两个有些“反常识”的知识点。一方面，过去以深度学习为基本盘的端到端模型，被外界诟病“就像一个黑箱系统，性能很好，但缺乏解释性。”但这种“不可解释性”，并不代表不安全。这就像人类面对复杂场景时产生的大多数驾驶行为也存在不可解释性。元戎启行在最开始端到端模型上车时，也会采用基于规则的安全兜底策略保证驾驶安全。比如系统如果检测将要发生碰撞，将会尽早进入保守策略，启动安全模式，避免端到端模型出现安全事故。

另一方面，端到端模型即使是底层技术架构，其实在消费端也是可以被察觉的。这种“可察觉”，是把“数码味”变成真正人类司机驾驶。今天，已经量产的传统方案，在直行、加塞、变道时会有明显的顿挫感，感觉还有不同的系统切换。但端到端模型上车的体验，会更拟人化。底层原因是，如果单纯基于人工规则，包括道路施工、压实线、应对违停车辆等等在内的每种场景都需要单独的规则，这样的系统并不好用。

现在，端到端大模型的魔盒已经打开：马斯克直播路测特斯拉 V12 版本45分钟内仅接管一次、蔚小理陆续宣布投入端到端研发......甚至还有一个小细节，最初特斯拉采用纯视觉端到端被外界认为不可靠、不安全，但当今年1月特斯拉举办2023年财报会时，马斯克被问到特斯拉是否会在今年举办AI Day活动。他立即表示，今后谨慎透露技术，因为竞争对手已经开始模仿创新。一个行业走向爆发前夕，往往会信息封锁，迎来最为紧张的时刻。

进入 2024 年，周光认为，“端到端是打开物理世界通用人工智能大门的一把钥匙。”本质上，Chat GPT、Sora、Midjourney，仍然属于互联网世界的生成式人工智能，所收集、生成的数据都是网络虚拟数据。这就意味着，仍没有针对物理世界的通用人工智能。要让人工智能具备物理常识，就需要大量物理世界的真实数据。在这种情况下，智能驾驶就是最佳解。

正如地平线 CEO 余凯所言，“手机是击穿物联网的关键，智能驾驶是击穿物理世界通用人工智能的关键。”这也让自动驾驶趋势愈发清晰：以模块化为主导的原始人工智能时代终结了，物理世界通用人工智能时代正拉开帷幕。

四、结语

中国智能驾驶的竞赛已然来到新的赛点。从元戎启行、商汤绝影再到小鹏汽车，供应商和整车厂们都加速推进着端到端方案的上车速度，进一步推动智驾行业变革。

世良情感网

车百智库