Mobileye复合人工智能系统（CAIS）—规模化实现全自动驾驶的正解

自动驾驶的发展不仅仅是一个技术命题，同样也是一个商业命题。从技术竞争为主导的上半场，到以商业化落地为主导的下半场，自动驾驶技术的发展和应用需要紧密结合市场需求，企业需要探索可行的商业模式，以实现技术的规模化和产业化落地。

“实现完全自动驾驶之路如同一场马拉松长跑”，Mobileye创始人、总裁兼首席执行官Amnon Shashua教授在日前公司Driving AI Day活动的演讲中提到，“这不仅考验着企业的技术创新和产品开发能力，还考验着企业的持续经营和盈利能力。”他提到，在Mobileye过去多年的支出中，每年仅用于研发自动驾驶的投入就高达6亿美元左右。在这场长跑中，企业不能仅仅依赖外部资金的注入，更重要的是要找到合适的盈利模式，以保障业务的长期可持续发展。

Mobileye创始人、总裁兼首席执行官Amnon Shashua教授和首席技术官Shai Shalev-Shwartz教授

而对于Mobileye要如何实现完全自动驾驶的规模化战略，Amnon教授也给出了清晰的回答——复合人工智能系统（CAIS）。

什么是复合人工智能系统？

复合人工智能系统（Compound AI Systems）最早是2024年初加州大学伯克利分校的AI研究实验室网站上的一篇题为《从模型到复合人工智能系统的转变》的博客文章中提出的。文章指出，最先进的人工智能成果越来越多地产出于复杂的多组件复合系统，而非单一大模型。

与传统的仅依赖单一人工智能模型的系统不同，复合人工智能系统强调多种工具和模块的集成和共同协作，以高效处理人工智能任务。

这种集成方法提供了灵活性和适应性，允许系统根据不同的输入和任务进行调整。此外，复合系统通过不同组件实现冗余，确保系统的稳定性。复合人工智能系统也更加可解释和透明，因为可以追踪每个组件对最终输出的贡献。

Mobileye以摄像头为中心的复合人工智能系统

所谓“以摄像头为中心”，不同于“仅依赖摄像头”，意味着同时对更多类型传感器的采用也持开放态度。例如，Mobileye内部在开发成像雷达，还在“可脱眼”系统中集成了一个前向激光雷达。摄像头和雷达的成本都相对较低，“可脱眼”系统配置的一个前向激光雷达的成本也很低，只需几百美元。

所谓“复合”，是指一方面Mobileye积极采用前沿的AI技术，例如深度学习、端到端，同时也发挥自己在视觉算法方面的传统优势，充分利用各种技术的优势，达到安全性和效率的最大化。

Amnon Shashua教授从四大维度深入审视了包括Mobileye自身“以摄像头为中心的复合人工智能系统”在内的当前主流智驾方案技术路线，这些也是Mobileye为实现自动驾驶下半场商业落地可行性的重要考量维度。

维度一：成本。在智驾的竞争中，成本是关键要素。高昂的研发和生产成本会直接影响到自动驾驶技术的普及速度和范围。成本是将Mobileye的技术路线与以激光雷达为中心的，配置大量昂贵传感设备的技术方案在未来商业落地可行性层面拉开差距的主要因素。

维度二：模块化。Mobileye的复合人工智能系统在模块化设计方面表现出色，这与Mobileye的经营理念紧密相连 —— 公司的产品组合涵盖了从辅助驾驶到无人驾驶出租车（Robotaxi）的各个类别，而模块化意味着可以提取系统中的某些模块，并基于此打造成本更低的智驾或辅助驾驶系统，或者增加额外的冗余传感器，以较小的投资实现向更高级别自动化的逐步过渡。通过模块化，将能够更好地适应未来技术更新和市场需求的变化。

维度三：地域可扩展性。地域可扩展性是指方案扩展到其它地域的难易程度。这一点对于全球化或致力于拓展全球化布局的汽车制造商尤为重要。

维度四：平均故障间隔时间（MTBF）。MTBF即平均行驶多久需要进行一次关键性的干预，是衡量系统可靠性的重要指标。相较于基于概率做出推断式决策、不具有可解释性的端到端技术路线，Mobileye通过严谨的数学计算，能够得出复合人工智能系统的误差水平，为实现可脱眼系统所需的MTBF（Mean time between failures，平均无故障工作时间）开辟一条更为现实且可靠的路径。

端到端——热话题也需冷思考

在Mobileye的复合人工智能系统中，端到端是重要的组成部分之一。

Mobileye很早就看到了端到端的潜力，在其大规模流行之前，就开始研究其在智驾领域的应用，也有积极采用端到端。早在2016年，Mobileye创始人、总裁兼首席执行官Amnon Shashua教授和Mobileye首席技术官Shai Shalev-Shwartz教授就发表了一篇阐释端到端系统的论文。

但Mobileye认为，端到端应作为智驾子系统之一提供冗余，而仅依靠端到端则会出现问题。

端到端方案的两个前提及对应的现实情况

先来看端到端的两个前提：

第一个前提：系统内部不存在任何粘合代码，而是由一个“黑箱”操作的神经网络构成。该神经网络的输入端接收来自摄像头的传感信息，输出端则提供汽车的行驶方向和轨迹，最终输出的是行动决策。系统本身仅作为一个数据通道。随着越来越多的数据被添加，神经网络通过观察人类驾驶员的行为来学习驾驶技巧。同时，有数以百万计的汽车在不断地发送行驶数据。由于不存在粘合代码，随着时间的推移和数据量的增加，系统可以使用更多的数据进行训练，最终达到一个奇点水平，即达到或超越人类驾驶员的能力。

但现实是：尽管号称无粘合代码，实际上粘合代码是确实存在的，只是以离线方式存在于系统中。在机器学习领域，尤其是在使用Transformer架构时，系统的任务是估算概率，即基于输入数据预测行驶轨迹的可能性。这种预测更多地关注可能性的大小，而非预测结果的正确性。因此，神经网络并不真正了解如何区分“罕见但正确”与“常见但错误”之间的区别。只根据统计，系统会更偏向于选择“常见但错误”的行为。

因为端到端系统只是估算概率，所以这种情况本质上就无法避免。而我们当然不希望自动驾驶汽车做出违反交规的行为。

为了解决这一问题，需要在语言模型中引入基于人类反馈的强化学习（RLHF）。对于端到端系统，就是在离线环境中，通过筛查和过滤机制，识别并剔除不良的人类驾驶行为，例如粗暴驾驶、鲁莽驾驶等。这一过程需要大量的工程技术和粘合代码的支持，但这些工作都在离线环境中完成，而不是在线实时进行。

因此，粘合代码并没有消失，而是从在线转移到了离线环境。这就是所谓的“自动驾驶对齐”问题，即需要区分哪些行为是正确的，哪些是错误的。

第二个前提：训练数据均为无监督数据，这意味着仅包含原始图像，没有人对图像中的数据进行过标注。因此，系统必须能够仅依赖无监督数据来实现足够的平均故障间隔时间。

但现实是，仅靠无监督数据进行训练，端到端方案的准确率能从0很快地推进到95%，但其所需的巨大成本、数据量和工程量也不容忽视。以现在的大语言模型和transformer为例，在从0—95%的阶段，能够实现相当大的飞跃，但无法达到100%准确，有时候会犯一些匪夷所思的错误。

对于事关安全的智驾，试错空间极小，95%的安全性是远远不够的。而仅依赖端到端，要想达到99.999999%的安全性是相当难的。

仅靠未经标注的无监督数据进行训练，会带来诸多问题，例如：

计算器问题：系统无法学会“长乘法”，因为系统所看到的只是许多数对相乘的示例，从这些示例中不足以抽象出长乘法的概念。因此在大语言模型中，不使用模型本身来输出结果，而是通过将问题转化为Python代码，由Python代码直接调用计算器，才能解决这一问题。“计算器”的角色，就是智驾系统为端到端注入的“抽象概念”的角色，即将具体的事物或行为抽象化，形成一般性的原则或规则。

捷径学习问题：“端到端方法”就是将所有传感器的数据输入到一个大型神经网络，然后对其进行训练。而输入的信息中，因为有些信息的样本复杂度低，意味着你需要少量的数据便可以学习到模式，而有的则相反。例如，激光雷达就是一种低样本复杂度的信息源，它是精确的三维传感器，因此要进行泛化，所需的数据量要远远少于摄像头。而摄像头则是高样本复杂度的信息源。

当输入来自不同的模态时，样本复杂度不同。而端到端随机梯度下降很难充分利用所有模态的优势，误差达到一定程度后就很难再下降。

严格意义上倒也不是说做不到，但所需要的时间之长，完全不切实际。这就是“捷径学习问题”。

长尾问题：对于长尾问题有两种假设，在乐观的情况下，有些事件的概率相对较大，而有些则非常小，覆盖一些边缘事件就可以大幅度地减少总体概率质量（probability mass）。这意味着少数关键的边缘事件可以显著提升系统性能，进而实现更高的平均故障间隔时间；在悲观的情况下，所有罕见的长尾问题其实概率都一样非常小，每个边缘事件对概率质量的影响非常小。这意味着即使处理了很多边缘事件，系统的故障率仍然不会有显著改善。覆盖所有这些边缘情况需要很长一段时间，长到不切实际。

总体而言，端到端学习模型的优势是显著的。然而，如果仅依赖无监督数据，不引入抽象概念，不考虑长尾问题，而只是单纯地向系统提供更多数据，那么是否能够实现平均故障间隔时间的目标确实是一个值得探讨的问题。

Mobileye的复合人工智能系统如何破局并降低误差

说到将AI应用于汽车行业，Mobileye在这方面一直都是先行者。Mobileye一直致力于将最新的AI技术整合到自身软件堆栈中。

每项技术都各有所长。Mobileye也积极采用包括端到端在内的前沿技术，在下一代软件中大量利用了端到端和Transformer，但不是拿来就用，而是会深入了解其优劣势，结合自身的经典优势技术，取各自之所长，重成本与效率，将最新的AI技术以安全和负责任的方式整合到产品中。

Mobileye的复合人工智能系统通过为端到端系统注入恰到好处的适量抽象概念，如RSS（责任敏感安全）模型，通过传感器冗余、算法冗余，以及高阶融合，能够将总体误差降至最低。

“偏差-方差权衡”以及抽象概念

前文中提到了端到端系统依靠无监督数据进行训练，按照概率分布做出决策判断，就好像我们只从身边的人的言行中学习，基于经验做出判断，但是未必清楚核心的规则和原理。

而所谓“抽象概念”，就是规范了某些具体的概念、需要遵守的一般性原则或行为准则，而不仅仅是表面的、具体的模式，让决策有据可依，提高规范性和安全性。

对于自动驾驶，RSS模型，即Mobileye用于为驾驶决策提供安全保障的引擎，就是一种抽象概念。还有感知状态，即基于输入图像输出车辆位置、行人、所有道路使用者、车道标记、交通信号灯、交通标志等等，这都是根据人类的经验来判断哪些是重要信息，然后获得相应的输出，这就是我们所说的抽象概念。

但抽象概念的注入要适量。为便于理解，这里讲一下“偏差-方差”的概念。

机器学习中的“偏差-方差”权衡

偏差，又称“近似误差”，是指学习系统无法反映现实的全部内容。注入抽象概念的程度称为偏差（Bias）。如果注入的抽象概念过多，就会产生近似误差，也就是说，模型的丰富程度以及容量并不能反映现实的丰富程度，在这种情况下，模型被过于局限了。过多的抽象概念、过多的偏差可能会因为近似误差而导致系统出错，因为这些都限制了系统的容量，神经网络的容量无法反映现实的丰富程度。

方差，也称“泛化误差”，是指学习系统对观察到的数据过度拟合，而无法泛化到从未见过的例子。如果不注入任何抽象概念，会产生很高的泛化误差。随着注入偏差的增加，也就是注入抽象概念增多时，泛化误差会下降。但凡事过犹不及，如果注入过多的抽象概念，系统容量就不足以反映现实的丰富程度。

学习模型的总误差是近似误差和泛化误差的总和。因此，为最大程度减少误差，需要对这两个误差进行精细控制。可以通过限定学习模型必须来自特定的模型族来减小泛化误差，但如果所选择的模型族无法反映现实的全部丰富性，就可能会引入偏差，因此两者之间存在权衡。

因此，就需要注入恰到好处的适量抽象概念，达到最佳平衡点，使总体误差最低。

落到Mobileye的具体工作中，其抽象概念是一套“感知-规控-执行”方法论。RSS模型就是一种大型抽象概念，还有运行的计算，分析计算等等，还有自动紧急制动（AEB）相关的“碰撞时间（TTC）”概念，也是抽象概念，应对长乘法的计算器也是，诸如此类，不一而足。

冗余设计和高阶融合：以严谨的数学方式论证误差

在谈到“捷径学习”问题时，提到了端到端无法真正利用每种传感器模态的优势，这种低阶融合无法达到理想结果。

而且端到端本质上是一个黑箱，不具有可解释性。但自动驾驶汽车的权衡规则必须公开透明，使社会能够通过监管解释影响所有道路使用者的自动驾驶决策。

最好的方式是建立一个可分解的系统，这样一来，当出现错误时，就可以找出错误原因并只关注网络出错的那个区域，不会影响到其他地方。

Mobileye的复合人工智能系统旨在利用所有传感器模式（包括摄像头、雷达和激光雷达），按每种传感器对系统进行可分解训练，然后进行高级融合，从而对驾驶环境形成更深入、更精确的理解，并更有效地处理各种极端情况，轻松达到更低的误差水平，这与完全的端到端系统或基于低阶融合的系统相比更具优势。

高阶融合中，有简单的部分，也有复杂的部分。

适用于二元决策的简单传统融合：比如前方有一辆车，是踩刹车还是不踩刹车，这是一个二元决策。经典的处理方式是采用“多数规则”，三个子系统里只要有两个得到同样结论，就满足少数服从多数。每个子系统都会给出1或-1的输出，即踩刹车或不踩刹车的决策。如果每个子系统犯错的概率为ε，那么采用多数规则，会让犯错的概率降到ε2，包括漏检或误检的概率都会降低。这就是传统融合，属于简单的部分。

适用于非二元决策的PGF（Primary-Guardian-Fallback）高阶融合：有很多决策并非是二元的，也就是无法根据多数规则来做决策。举个例子，在横向控制情况下，比如说车两侧各有一辆公交车，一个子系统告诉我们前方道路左转，另一个子系统告诉我们前方道路直行，还有一个子系统告诉我们前方道路右转。这里没有“多数”的概念，该怎么办呢？如果做了错误的决策，就会和旁侧公交车发生碰撞事故。那么，问题就来了：我们该如何进行高阶融合以做出非二元决策？

无法根据多数规则来做决策的非二元情况

概括地讲，Mobileye构建了三个子系统，这三个子系统针对想要进行高阶融合的所有组件，不仅仅是摄像头、雷达、激光雷达，而是包含了高阶融合的所有方面。

构建PGF三个子系统以进行高阶融合

“Primary”主系统：用于预测，例如预测车道位置

“Fallback”备用系统：基于不同方法同样做预测

“Guardian”监护系统：负责检查Primary主系统的预测是否正确

例如，前方道路是向右、向左还是直行，端到端网络做出了判断，Guardian监护系统同时也在执行它的检查工作，每个系统出错的概率均为ε。

如果Guardian监护系统认为Primary主系统的预测有效，就按此执行；否则会选择Fallback备用系统。

经证明，系统的总体误差可以低至与多数规则相同的水平。

总的来说，复合人工智能系统代表了人工智能发展的一个重要趋势，即从单一模型的优化转向构建集成多种AI技术的复合系统，以实现更高效和强大的AI应用，满足自动驾驶应用对安全性、精确性的高要求。

更多Mobileye的最新技术创新，请观看Mobileye Driving AI Day演讲视频回放。

100倍Transformer效率提升

Mobileye的复合人工智能框架由多个相互支持的组件构成，这些组件专为自动驾驶而设计，旨在将端到端学习模型与专门算法相结合，以实现对Transformer和生成式AI的高效利用。

为了达成这一目标，Mobileye开发专为自动驾驶感知和规划而优化的Transformer模型。该模型在效率上相较于通用人工智能领域的最先进模型提升了100倍，同时并未降低准确性。

具体实现方法为STAT（稀疏注意力），该技术通过将token分为不同类型，并按类型划分相应的矩阵。这一过程类似于将人群分成多个小组，每个小组由一位经理负责，小组成员直接与经理沟通，而经理之间也进行相互交流。通过这种有序的沟通机制，STAT技术显著提高了整体的工作效率。

EyeQ6H——效率的代名词

Mobileye提出了能够科学地反应芯片能力的指标——FPS（Frames per second），即每秒能够处理的画面帧数。相较于TOPS数值，FPS能够科学地体现系统在现实中解决实际问题的能力，因此可以作为更科学地衡量效率的指标。

Mobileye认为重视效率才是技术能力的体现。基于在计算机视觉算法方面的深厚积累和经典传承，并结合在AI深度学习方面的前沿突破，Mobileye在芯片设计上采用完全异构的计算架构，针对卷积和transformer等神经网络以及视觉运算的不同计算场景，将适合的运算任务分配到适合的核，提高芯片利用率，实现整体最有效的加速。相较于上一代EyeQ5H，EyeQ6H 有其2倍的Tops，却达到了10倍的FPS。

自动化数据标注，解决现实世界的数据难题

CAIS因为注入了抽象概念，因此仅需要少量的数据进行训练，但所需的必须是高质量的数据。

Mobileye采取的方法是在离线环境中生成数据，无需占用车载计算资源。首先，基于大量的无监督数据训练一个基础模型，然后通过监督式微调来针对特定问题进行建模。

Mobileye开发了一种针对图像的基础模型，该模型能够理解每个像素的含义，并根据像素的语义属性进行聚类。因此，该模型能够识别图像中每辆车、每个车道标记、每根杆子的位置等，最终创建自动基准真值，以完全自动化的方式建立对周围环境的全面理解，从而能够获得非常丰富的现实表征，基本上能够了解周围每个像素的深度信息，然后利用这些高质量的数据来训练AI模型，而且生成这些标签的成本为零，因为这一过程无需人工干预。

关于 Mobileye

全球智能驾驶解决方案领导者Mobileye（纳斯达克股票代码：MBLY）凭借其自动驾驶和驾驶辅助技术，利用世界知名的人工智能、计算机视觉、路网和以及软硬件集成领域的专业知识，引领移动出行的变革。

自1999年成立以来，Mobileye始终致力于推动高级驾驶员辅助系统的广泛应用，开创了路网智能技术、True Redundancy™传感和责任敏感安全（RSS™）驾驶策略和驾驶体验平台（DXP）等突破性技术。这些技术正在推动ADAS和自动驾驶领域走向移动出行的未来——实现自动驾驶汽车和移动出行解决方案，为行业领先的高级驾驶员辅助系统提供动力。截至2023年底，全球范围约有1.7亿辆汽车配备了Mobileye技术。