文/肖楷 , 魏鹳霏 , 赵丽萍 , 于钟海
特斯拉FSD技术栈:全栈自研,真实世界AI构筑者
FSD是特斯拉智能驾驶产品Autopilot中等级最高的一档,旨在向自动驾驶迈进,也能复用至Optimus等机器人产品。本章结合特斯拉历届Investor Day、AI Day和其他公开活动,以软件为核心,对FSD技术栈进行详细梳理[1]。特斯拉秉持第一性原理(从基本事实公理出发,通过逻辑推理得出结论)和垂直整合思想,如下图,在智能驾驶领域这体现为纯视觉方案,以及从车端到云端、从软件到硬件的全栈自研,特斯拉对科学和工程本质的思考从中也可见一斑。
图表1:特斯拉FSD技术全栈概览

资料来源:特斯拉Autonomy Investor Day,特斯拉AI Day,特斯拉AI Day 2,CVPR 2023,中金公司研究部
感知:以AI模型构筑向量空间,车道感知路线具有领先性
感知算法领域,特斯拉将摄像头纯视觉图像作为输入,使用骨干网络(Backbone)抽取图像特征,基于抽取的特征构建以鸟瞰图(BEV)和占用网络(Occupancy Network)为代表的向量空间(Vector Space),并在向量空间中进行后续驾驶行为的决策。从围绕独立的单帧图像进行感知和处理,到综合多帧图像的时空信息构建整体的向量空间,随着智能驾驶功能的升级,特斯拉的感知算法亦不断进化。此外,针对车道感知等关键而困难的任务,特斯拉也专门设计了精细化的感知模型。
骨干网络:HydraNets
骨干网络是感知模型的底座和基础设施。感知模型搭建的基础问题在于,图像输入之后如何处理、需要涉及哪些感知任务、不同感知任务之间的相互关系是怎样的,这些问题关乎整个感知模型基础结构的设计,而特斯拉交出的答卷为HydraNets骨干网络。
图表2:图像特征抽取与多任务学习骨干网络HydraNets

资料来源:特斯拉AI Day,I. Radosavovic, R. P. Kosaraju, et al., “Designing Network Design Spaces”, 2020,M. Tan, R. Pang, et al., “EfficientDet: Scalable and Efficient Object Detection”, 2019,中金公司研究部
HydraNets的结构特点是共享的特征抽取骨干与各个不同的细分感知头相结合。共享骨干使得,各细分任务基于同一套特征,避免了为各个任务单独构建骨干,提高了车端前向推理的效率;不同的细分感知头使得,各细分任务的独立设计、微调和完善成为可能。同时,为提高模型训练和推理效率,特斯拉还在特征缓存、分布式训练、Loss函数和权重设定等方面做了精细的工程化设计。
向量空间构建:从BEV到Occupancy Network
特斯拉在向量空间的构建上进行过诸多尝试。初期特斯拉在单帧图像上完成车辆、行人、车道线等诸多道路元素的检测,但在落地智能召唤功能时遇到困难,图像空间难以直接用于驾驶决策。在第二阶段,特斯拉尝试使用Occupancy Tracker,其基于大量C++代码,主要原理是将基于各帧图像分别感知到的结果和特征在同一时间维度缝合起来,但是面临超参数设定庞杂、输出结果可靠性较低(需要精准估计每一个像素的深度)、难以在图像空间处理遮挡区域、难以处理跨越多个摄像头范围的大型物体等挑战。于是,特斯拉探索使用更优的架构来构建BEV空间,旨在更好地融合所有图像帧的信息、同时输入神经网络,并最终更高效准确地从图像空间转换至向量空间。
在单车旅程视频之外,该架构还可以引入其他车辆的众多旅程视频,共同协作以完善BEV地图。不难看出,相较于此前使用单一神经网络感知单帧图像(后续的驾驶决策也基于单帧图像提供的可行驶区域进行),BEV + Transformer是特斯拉感知架构的一次跃升,也逐渐成为其他智能驾驶企业效仿的感知范式。
图表3:BEV + Transformer感知框架

资料来源:特斯拉AI Day,中金公司研究部
占用网络(Occupancy Network)是特斯拉感知能力在BEV基础上的又一次精进,其基本思想是判断三维空间中的各立体像素(体素)在特定时点是否被占用。根据特斯拉在CVPR 2022的公开分享[2],Occupancy Network的最初目的仅是处理围墙、行道树等静态物体,但由于静态和动态的划分本身便具有模糊性,特斯拉后来选择将动静态物体感知纳入统一的框架。作为泛化性的网络,Occupancy Network以体素是否被占用为核心,本身不区分动态或静态物体、不追究为什么被占用,甚至也不受障碍物具体形状或种类的限制,但是后续可以添加额外的语义来表征物体运动方向等信息。
图表4:占用网络(Occupancy Network)模型架构

资料来源:特斯拉AI Day 2,中金公司研究部
车道感知神经网络:构建车道的“语言”
精细的车道感知神经网络是智能驾驶功能升阶的必然要求。车道及其拓扑结构感知是一类重要的感知任务,与下游决策息息相关。在早期,特斯拉主要用简单的图像实例分割方法来探测车道线,这种方法在高速公路等高度结构化的道路环境下是适用的。然而,城市道路的拓扑结构更加复杂多样,存在重叠、分叉、遮挡、车道线不清晰等状况,简单的实例分割难以应对。为应对智能驾驶功能升阶的要求,特斯拉专门针对车道感知进行了精细化的模型设计和工程落地,我们认为这套车道感知神经网络当前仍具有一定的领先性。
图表5:特斯拉车道语言模型探微

资料来源:特斯拉AI Day 2,中金公司研究部
预测:划分两个阶段,稀疏预测提高预测算法性能
预测算法领域,特斯拉在一定的时间区间内预测所有物体的未来轨迹,预判潜在的危险场景,并在后续通过驾驶决策来避免碰撞。在实车部署中,我们认为预测模型的实时性十分重要,更高的帧率、更低的推理延时可以为决策模块提供更大的灵活度,而特斯拉预测算法的设计便体现了这种高效、灵敏的思想。
具体而言,特斯拉的预测算法由两个阶段构成:第一阶段,识别目标物体在三维空间中的位置,获取感兴趣的区域(Region of interest);第二阶段,拉取感兴趣区域的张量,辅以自车运动学、候选自车轨迹、车道线与交通信号等额外信息,生成目标物体轨迹预测的结果。两个阶段结合,使得预测算法可以集中计算资源用于处理有限而重要的感兴趣区域,是一种稀疏化的预测路线,有助于提高预测算法的性能、降低推理的延时。
图表6:物体预测模型概览

资料来源:特斯拉AI Day 2,中金公司研究部
决策:神经网络+搜索+剪枝,注重增强交互性能
在AI Day 2上,特斯拉展示了新一代决策算法架构——基于交互的搜索算法(Interaction Search),整体上与此前的决策算法一脉相承,但可以发现更多细致的工程设计与架构完善。决策算法的底层思想保持不变:平衡使用神经网络和搜索剪枝,数据驱动的方法(神经网络)可以规避大量手动工程设计,但是神经网络的输出需要经受物理学规则的检验。
图表7:基于交互的搜索算法(Interaction Search)

资料来源:特斯拉AI Day 2,中金公司研究部
云端:发挥更大规模离线模型的能力
不难发现,在感知、预测、决策等各个车端算法中,特斯拉均使用了大量的神经网络,这些神经网络设定了智能驾驶性能的上限,而大规模的训练数据集是开启这些潜能的“钥匙”。因此,云端的标注模型和仿真模型在特斯拉的智能驾驶体系内亦扮演举足轻重的角色,且由于没有车端的算力约束和推理实时性限制,云端也是更能发挥特斯拉大规模AI模型能力的地方。
图表8:特斯拉数据标注模式的演变

资料来源:特斯拉AI Day 2,中金公司研究部
特斯拉自动标注的总体流程为:输入从实车(工程测试车或客户驾驶车)采集的Clip,在服务器端(云端)离线使用大量的神经网络来生成中间结果(分割、深度和点云匹配等),而后这些中间结果再经过一系列算法(Robotics algorithm)和AI模型的处理,输出最终的用于训练的标签。在云端,针对不同神经网络的训练需求,特斯拉都有专门的自动标注框架用以支持。
云端标注的本质在于将大规模AI模型和人类标注员的能力蒸馏,并将跨越时空的信息内化至车端模型。我们认为,相较于车端实时推理,云端自动标注的差异点主要在于:1)车端芯片有明确的算力限制,而云端能够调用的算力更大;2)车端推理实时性要求高,而云端标注的时效可以放宽;3)云端具有“上帝视角”:对于一个特定时点,车端模型只能知晓历史信息,而无法知晓未来;云端拥有一段完整旅程的视频,历史帧和“未来帧”均一览无余,同一地点的不同时间的情况也都能获知。第1点和第2点使得云端能够部署更多种类、更大规模、更多细分任务的算法和模型,这些云端的大模型通常比车端的“小模型”具有更强的能力,云端标注的实质其实就是将云端大模型的能力蒸馏给车端模型,或者将诸多细分任务中最关键的任务抽象至车端部署。第3点使得云端具有超越时空的感知能力,这在处理极端天气、遮挡等条件下的标注时尤为关键。
图表9:通过多趟轨迹重建来进行3D自动标注的流程示意

资料来源:特斯拉AI Day 2,中金公司研究部
除自动标注外,特斯拉也在仿真领域大量投入,以生成数据标签和训练AI模型。仿真能够发挥显著价值的场景包括:1)难以采集的极度长尾的场景,虽然这些场景的发生概率很小,但为了保证智能驾驶的安全,仍需要喂入相关场景数据以训练神经网络;2)难以标注的场景,如人员过度密集的街道,即使自动标注的方法也较难在这样的场景下生成完全准确的标签;3)行为闭环的场景,即自车的行为会造成环境状态的变化,需要在仿真中刻画环境与行为间的双向关系,模拟其他道路参与者的反应和交互。上述采集、标注和决策验证层面的挑战,均可使用仿真工具高性价比地应对,仿真由此成为特斯拉生成训练数据的又一重要基础设施。
特斯拉FSD前沿:端到端模型与世界模型
技术层面的探索:落地端到端模型,构筑智能驾驶Foundation model
在AI大模型浪潮之下,端到端模型、世界模型乃至多模态大模型在智能驾驶领域的应用前景获得广泛关注[3],特斯拉亦在相关领域展开了前沿探索。事实上,特斯拉前智能驾驶团队负责人Andrej Karpathy就曾公开畅想过[4]:智能驾驶的终极形态,或许是部署多模态大模型“GPT-10”,将车辆管理局手册和过去10秒的传感器数据喂入其中,便能生成未来的行驶指令。而在AI Day和AI Day 2上,特斯拉也曾多次提到“端到端”的长远愿景。这些探索固然是早期的、相对不成熟的,但以特斯拉为代表的头部企业在相关领域的前沿创新与初步进展,让我们看到了智能驾驶更为广阔的向上空间。
图表10:特斯拉FSD版本迭代一览

资料来源:特斯拉官网,Tesla AI,Tesla Software Updates,Not a tesla app,Tesmanian,42号车库,车东西,财联社,中金公司研究部
端到端模型:以单一端到端神经网络支撑智能驾驶
特斯拉端到端模型的实车亮相始于2023年8月,马斯克直播展示了特斯拉最新的FSD v12智能驾驶系统,测试的路况包括城区主干道、施工路段和十字路口等,全程约45分钟[5]。马斯克在直播中表示,FSD v12采用端到端神经网络架构,工程师没有为减速带、停车标志或环形交叉路口等场景人为编写程序和规则,而是由神经网络自主学习;FSD v11的C++代码量超过30万行,而FSD v12的代码量约为2000行[6]。我们认为,虽然直播过程发生了接管,但是总体而言FSD v12表现平稳,拟人化的程度较高,更为重要的是系统并没有因为切换至端到端架构而出现明显的性能回退,展现出端到端智能驾驶的强大潜力,掀起了业内其他企业布局端到端技术栈的浪潮。
2023年12月,基于端到端架构的FSD Beta v12.1开始向特斯拉员工内部推送和试用,此后逐步迭代和推广;2024年3月,FSD Beta v12.3向美国(后拓展至加拿大)用户推送,更大规模的用户得以使用端到端智能驾驶技术,实测后不少用户表示FSD的驾驶能力和乘坐体验提升较为显著[7],端到端模型也由此获得更高热度。
从v12.3.3开始,FSD的标识由“Beta”转变为“Supervised”,我们认为,特斯拉借此传递出了FSD产品能力进入新阶段的信号,FSD能够更妥善地满足大部分场景的智能驾驶需求,不过仍需人类驾驶员的监督。2024年5月,FSD推送v12.4,模型整体训练优化较多,且在舒适性和驾驶员注意力监测方面做了优化。同时,在迭代的过程中,FSD能够实现的功能也更加丰富,如FSD Beta v12.3.2里的自动泊车Autopark功能,可以更好地实现自动停车和高阶智能召唤。2024年8月,FSD进入v12.5时代,模型参数量为v12.4的5倍。根据公司官方的估计[8],FSD有望在2024年10月推出v13,实现车位到车位的智能驾驶能力。
为更好支撑以端到端模型为代表的算法能力进阶,特斯拉亦在持续打磨车端硬件,推出Hardware 4.0(HW 4.0)。HW4.0仍然采用纯视觉路线,重要组件包括[9]:1)双目摄像头,最远探测距离达424米,对于复杂城市场景的探测能力提升(城市道路交叉口距离通常在300-500米之间[10]);2)前摄、后视、车周共7个500万像素摄像头(此前为120万像素[11]),实现360度感知,泊车辅助时能呈现高清3D图像;3)自研推理芯片,芯片算力提升5倍,以满足更高阶算法和更清晰图像的处理需求。根据特斯拉官方公众号,截至2024年4月,特斯拉S3XY全系新款车型均已搭载HW 4.0硬件。此外,在2024年一季度业绩会上,马斯克披露Hardware 5.0(HW 5.0)已经基本设计完毕,芯片算力相比HW4.0有望提升10倍[12],最快预计于2025年年底部署上车。
从端到端模型落地的实际效果看,FSD Beta v12.3推出以来,用户的体验反馈较为正面。在端到端模型的加持下,FSD更加拟人和智能,也更加高效和舒适,速度转向控制、道路主体交互、视觉测距能力和长尾场景处理等方面均有明显进益。例如,在v11版本中,当车辆直行时遇到前方远处左转的车辆时,FSD通常会明显减速,有顿挫感,而v12能更准确预估前方车辆的路线和速度,自车规控更为丝滑;对于纸壳箱和异形障碍物,即使没有显示检测结果或仅以占用网络显示,v12均能较妥善地实现绕行[13]。根据Tesla FSD Tracker的数据,FSD Beta v12.5在城市道路/所有场景发生一次关键接管的里程数分别提升至160公里和280公里。
更为重要的是,端到端模型意味着特斯拉研发范式的改变,更加数据驱动成为可能。通常而言,FSD从开发到部署的步骤包括:1)训练出数百个不同的神经网络,可以驱动车辆实现不同的驾驶策略;2)通过回放实车收集的数百万个Clip(通常为困难场景),来验证训练出的神经网络;3)采用仿真系统验证训练出的神经网络;4)经过以上环节,挑选出少量有效的神经网络,由测试员实车测试,以验证新的神经网络相比此前版本是否有净提升;5)向特斯拉员工内部推送;6)向外部用户推送。由于从v12开始采用端到端神经网络架构,以上步骤可以实现自动提升,只需神经网络学习新增数据的概率分布,无需工程师人工撰写策略和编写C++代码,研发范式更加数据驱动。事实上,特斯拉一直在推动技术栈向数据驱动的方向转变,如v10.9去掉车道线感知的后处理代码[14],改为由模型直接输出车道线实例;AI Day 2也显示特斯拉在决策模块中加入更多的神经网络和奖励模型,而端到端则是向数据驱动的更进一步。
图表11:特斯拉FSD v12版本能力评测

资料来源:智能车情报局,赛博汽车,EatElephant,Roger Kappler,车东西,中金公司研究部
世界模型:基于生成式AI框架的智能驾驶Foundation Model
在世界模型方面,特斯拉智能驾驶团队Ashok Elluswamy于CVPR 2023分享了相关进展[15]。如下图所示,应用世界模型,特斯拉能够预测车端各摄像头在未来时刻看到的画面,且预测的产出不光包含RGB图像,还包含语义。同时,通过使用适当的Prompt,世界模型还能预测自车采取不同举措后(例如,保持直行,或者右转变道)可能出现的场景,这种预测能力可以泛化至训练数据范围之外。此外,我们不难发现世界模型还可以模仿特斯拉式的黄色调图像,生成视频中的物体和运动在各摄像头画面间均保持了较好的协调和一致,侧面说明特斯拉世界模型也具备了传感器仿真和理解几何布局与运动的能力[16]。
长远愿景:构筑智能驾驶Foundation model。在CVPR 2023,特斯拉智能驾驶团队的另一位成员Phil Duan阐释了特斯拉构筑Foundation model的长远愿景[17]。概括说来,特斯拉未来希望用一个统一的全能的基座模型,从传感器数据中抽取出丰富的对智能驾驶具有价值的4D向量空间特征,而后这些特征再按需应用到占用分析、路面分割、车道线感知等具体的下游任务。理想情况下,Foundation model既能凭借对世界的深刻认知,挖掘关键的特征,又能统一下游各类独立的任务,避免信息在任务间传递时发生损失。当然,统一的Foundation model不意味着架构的简陋,我们认为将其用于实车部署时,无论是Foundation model本身还是下游的任务应用,或均需要进行十分精细的工程化设计。
图表12:特斯拉构筑智能驾驶Foundation model的长远愿景

资料来源:CVPR 2023,中金公司研究部
商业层面的意义:向软件驱动的AI科技公司演进
从2006年开始,马斯克不定期公布代表特斯拉长期战略规划的“秘密宏图”(Master plan)。在秘密宏图第一章[18](2006年发布)中,特斯拉表示其目标为经济的可持续发展,推进从碳氢燃料为主体的经济体向太阳能电力经济体转型,而这个目标将通过以下步骤逐步开展:1)打造一款产量小、售价高的高性能电动跑车(Tesla Roadster);2)使用Roadster的利润,开发一款产量适中、价格相对较低的车型;3)使用价格较低车型的利润,开发一款量产的、价格亲民的车型;4)提供太阳能电力。而在2016年公布的秘密宏图第二章[19]中,特斯拉重点谈及自动驾驶,其不仅能实现更安全的驾驶(减少事故)和更高效的交通(缓解拥堵),还能通过共享出行大幅降低车辆的真实拥有成本、提升车辆的使用效率,进一步助力可持续发展。此外,马斯克在2024年一季度业绩会等场合还多次提及,车端芯片用于AI模型分布式推理、FSD复用至机器人等,预计还将为特斯拉创造增量的商业化途径。
我们认为,实现秘密宏图第一章量产所带来的利润和现金流,是特斯拉后续战略的重要支撑,而自动驾驶/AI正是资本密集型的领域,前期投入高昂、回收周期长(马斯克提到,相比在车端部署硬件,智能驾驶软件的完善和检验需要的时间要长得多[20])。现金牛业务为AI业务造血,而庞大的车队、拓展机器人赛道等有望共同摊薄前期的高昂投入,最终形成规模效应,构筑起特斯拉发展自动驾驶和AI业务的重要壁垒。在商业层面,我们认为这对特斯拉的重要意义在于从汽车生产厂商向软件驱动的AI科技公司演进,软件收入有望从多个渠道重塑公司的业绩结构:
► FSD软件收入:在特斯拉车辆保有量和每年新增销量的基础上,智能驾驶软件能力的进步有望提高FSD订阅和买断的渗透率,从而拉动FSD软件收入的增长。此外,我们认为向其他车企授权FSD的许可费用也将是潜在的软件收入来源。
► 自动驾驶车队收入:量产Robotaxi,从C端消费者收取共享出行费用。而在客户用车需求大于客户拥有车辆数量的城市,特斯拉或运营自有车队[21]。
► 其他相关收入:机器人收入、云计算IaaS和分布式人工智能推理服务收入等,均是基于成熟的自动驾驶和AI基础设施可能衍生出的潜在收入。
图表13:特斯拉致力于打造真实世界AI

资料来源:特斯拉股东大会,中金公司研究部
事实上,随着算法能力的进步,特斯拉也正在采取不同的举措以提升FSD的渗透率:2024年3月,特斯拉向美国和加拿大的合格车主提供FSD 30天免费试用;2024年4月,特斯拉将FSD的一次性买断价格下调至8000美元,将订阅价格下调至99美元/月;同时,特斯拉也要求在北美地区新车交付前需要先带客户体验FSD。
此外,特斯拉还尝试将FSD推广至其他国家和地区,以扩大用户群体、扩大收入体量、进一步摊薄前期成本,并持续收集增量数据以完善FSD算法:
► 中国:2024年4月28日,中汽协发布《关于汽车数据处理4项安全要求检测情况的通报(第一批)》,公告符合汽车数据安全4项合规要求的车型名单,特斯拉Model 3和Model Y在列;2024年6月,百度宣布百度地图V20真车道级导航全球首发,已在特斯拉所有搭载AMD车机芯片的S3XY车型上线[22]。根据特斯拉官方的估计[23],FSD有望在2025年一季度进入中国市场(有待监管批准)。
► 欧洲:我们认为,欧洲亦为FSD的潜在拓展市场,但需要满足欧盟认证准入等要求[24]。根据特斯拉官方的估计[25],FSD有望在2025年一季度进入欧洲市场(有待监管批准)。
Mobileye:软硬一体,全球头部智能驾驶ADAS供应商
概览:软硬一体的智能驾驶解决方案提供商
以芯片起家,具有全栈自研能力的软硬一体智能驾驶解决方案提供商。Mobileye成立于1999年,由计算机视觉副教授Amnon Shashua和企业家Ziv Aviram 共同创立。公司以芯片业务起家,通过EyeQ芯片巩固在视觉ADAS解决方案(L1-L3)的市场地位,并积极拓展自动驾驶(L4)解决方案。回顾Mobileye的发展历程,公司自2004年起开始推出EyeQ系列芯片,至今已有六代产品;从最初基于视觉方案的车辆防碰撞系统持续拓展,当前公司的产品支持含基础ADAS功能和自动驾驶功能在内的一系列应用;2014年,Mobileye在纽约证券交易所上市;2017年,Mobileye被英特尔以153亿美元的价格收购,2022年再次于纳斯达克上市。
图表14:Mobileye产品布局

资料来源:Mobileye 2023 CES,Mobileye 2024 CES,Mobileye招股书,Mobileye公众号,Mobileye官网,车东西,汽车视界研究,中金公司研究部
技术:六大核心软件与算法,技术路径完备而精细
MVS(Multi View Stereo):SuperVision的核心
多维图立体视觉MVS,又名“伪激光雷达”(Vidar),Mobileye SuperVision产品的核心技术,是一种通过单目摄像头获取图像,重建三维场景的方法。MVS获取不同视角的图像信息,通过匹配和融合其中的特征点,生成场景的深度图和三维模型。本质上,MVS是单目3D重建SFM(Structure From Motion)技术路径的落地实践,强调通过使用多视图几何优化等数学理论,从2D图像序列中确定目标的空间几何关系,通过相机移动,复原3D结构。而MVS的具体操作是将多个环境视图转化为点云,然后用伪激光雷达的算法处理该点云。
为提升整体感知效能,Mobileye也融合了Mobileye REM(Road Experience Management,详见下文)、视觉道路模型(基于摄像头的高精度道路机器视觉模型)、Range Net(提取物体深度信息的神经网络模型)等多项技术来进行综合感知。
端到端感知(End-to-end Sensing):更透明、更可控的系统
Mobileye使用端到端感知,而非完全端到端(Fully End-to-end)。端到端感知是指从摄像头获取图像数据,通过深度神经网络进行处理、识别和标记,之后转交给独立的决策、控制系统。端到端感知与完全端到端的区别在于其只在感知层面上是端到端的,在决策和控制层面仍然依赖于传统算法或人工规则。端到端感知的决策、控制规则是可拆解(decomposable)的,具有三大优势:1)模型不是完全的黑箱,具备一定的可解释性和透明度;2)可根据监管要求或OEM偏好对系统做出调整,可控性更强;3)成本友好,相比完全端到端模型,端到端感知在训练、维护阶段成本更低,具有更好的可拓展性。
图表15:端到端感知与完全端到端的对比

资料来源:Mobileye 2024 CES,中金公司研究部
REM(Riding Experience Management):高效的众包云端地图数据库
Mobileye的REM是一个基于摄像头的众包云端地图数据库,依靠全球配备Mobileye芯片汽车的实际驾驶数据绘制高精度和高清晰度地图。Mobileye借助REM打造了覆盖全球多个区域的Mobileye Roadbook,以推动智能驾驶的规模化部署。
RSS(Responsibility Sensitive Safety):数学与逻辑模型定义的安全框架
RSS由Mobileye和英特尔共同开发,旨在为智能驾驶车辆提供一个明确的安全框架。与依赖于复杂的概率计算和机器学习算法的传统安全模型不同,RSS通过明确的数学模型和逻辑来定义安全驾驶。本质上,RSS模型提供的是一种驾驶规范,而非驾驶指令。RSS不会做出“以当前速度开xx米,然后以xx的加速度加速前进”的驾驶指令,而是会提出例如“跟随前车”或者“从左侧超车”的驾驶规范[26],这提升了算力的利用效率。
TR(True Redundant):冗余的传感器系统与感知结果
Mobileye的TR是指在自动驾驶车辆中使用两个完全独立的传感器与算法子系统,每个子系统都能够独立完成环境感知任务,生成独立的感知结果。目前,Mobileye的两套子系统分别为摄像头子系统与雷达-激光雷达子系统。与传统冗余策略不同,Mobileye TR的子系统各自独立感知和构建环境模型,而非相互补充。这意味着每个子系统都可以独立运行,并在另一个子系统失效时提供备份。
DXP(Driving Experience Platform):兼容可扩展性与差异化需求
服务OEM过程中,Mobileye面对增强可扩展性与满足OEM差异化需求之间的权衡。Mobileye DXP平台根据“When”、“What”和“How”来组织决策,将通用部分和差异化部分区分开来,以期解决上述问题。在Mobileye的定义下,“When”(对驾驶环境的感知)和“What”(通用层面的驾驶决策)属于通用部分,而“How”(个性化的驾驶决策)则属于差异化部分。通用部分由Mobileye给出一致的解决方案,而差异化部分则提供给OEM厂商个性化定制的空间。
海外进展的背后:浅析智驾龙头的核心优势与壁垒
在AI Day、投资者日、业绩会及其他公众活动中,特斯拉和Mobileye对智能驾驶技术栈的分享是较为详实的。我们认为,模仿上述技术路线本身不是最难的,头部智驾企业展示技术栈的底气,或来自更底层、更长期、复制门槛更高的竞争优势。我们将这些优势总结为:1)数据引擎,2)垂直整合和3)创新能力。下文我们将以特斯拉为例,具体分析这些优势。
数据引擎:以庞大的车队数量和强大的工程优化能力为支撑
根据AI Day 2,2022年特斯拉训练的模型超过7.5万个,平均不到10分钟便训练1个模型,其中车道模型的参数量约为7,500万,而所有车端模型的合计参数量约为10亿,这些大规模AI模型需要海量训练数据的支撑——仅Occupancy Network的训练便用到了14亿帧图像,截至AI Day 2特斯拉总体的视频缓存达1,600亿帧图像(30PB)。值得注意的是,与学术界通常基于固定数据集来评估新模型性能的范式不同,特斯拉的做法是在实践中发现增量问题,收集增量数据以训练增量模型/完善存量模型,从而解决增量问题并开启下一轮的验证。这意味着,特斯拉的上述庞大数据集是流动的、实时更新的、需要精细化管理和挑选的,AI Day 2披露每天流入特斯拉服务器的视频数量达50万个。
因此,我们认为特斯拉FSD的首要竞争优势,便是构建了一个高效运转的数据引擎,能够广泛采集关键数据、深度挖掘数据价值,促成模型能力持续验证、迭代和进化的正向循环。特斯拉首先训练一个基准模型,部署到车端,通过影子模式或测试车挖掘基准模型未能妥善处理的难例,难例数据经过标注流程获得正确标签,进入训练集中用以训练更新一代的模型,新模型再次部署到车端进行验证。每一轮的迭代都是持续解决问题和模型自我强化的过程,我们认为随着时间积累,特斯拉有望建立起类似于互联网企业的先发优势和规模优势。
图表16:特斯拉数据引擎

资料来源:特斯拉AI Day 2,中金公司研究部
特斯拉之所以能构建强大的数据引擎,我们认为以下因素功不可没:
► 庞大的车队:根据AI Day 2,使用FSD Beta的特斯拉车辆数从2021年的2,000辆增长到了2022年的16万辆,2023年6月进一步增长至40万辆(据CVPR 2023),同时FSD(Supervised)的累计里程数在2024年6月已超过16亿英里(据特斯拉2Q24业绩会),2023年以来里程数的增长呈现明显的加速趋势。我们认为,特斯拉车辆的市场份额为数据引擎奠定了基础条件。此外,车队采集数据本身也是带有标签的数据,特斯拉在Autonomy Investor Day就曾分享过用实车数据来预测加塞和未来路径等实践。
► 强大的工程优化能力:庞大的车队数据是蕴含较大价值的“矿产”,而真正使用之前还需“提纯”和“加工”,这就非常考验特斯拉的工程化能力。在数据采集阶段,特斯拉有影子模式的创新,设计了超过200种触发器,司机评分系统较为完善;在数据标注阶段,特斯拉有自动标注、多趟轨迹重建、离线大模型等诸多流程化举措;而在验证阶段,AI Day披露特斯拉每周会完成超过100万次的代码变更验证。诸如此类,在如何筛选数据、如何合理利用数据等方面,特斯拉进行了很多细致的工程设计,方能真正让数据引擎跑起来。
垂直整合:软硬一体,规模优势是关键逻辑
在“垂直整合”的思想指引下,智能驾驶领域特斯拉实现了车、车端芯片、云端芯片、软件算法和数据引擎等层面的全面自研,既有利于降低成本,又能提升硬件与软件之间的适配、软件与工具链之间的适配,并借助特斯拉车辆本身的销量摊薄以上所有的研发成本。
特斯拉早期的智能驾驶车端芯片外采自Mobileye(HW 1.0)和英伟达(HW 2.0),2017年对外公开自研芯片计划[27],2019年正式发布基于自研FSD芯片的HW 3.0。单颗FSD芯片的算力约为72 TOPS,车端计算平台采用双SoC的模式,运行时由1颗芯片输出最终的控制指令,而另外1颗芯片作为算力的延展,且两颗芯片的角色可以相互交换。为更好地适应特斯拉的智能驾驶算法,FSD芯片中专门设计的AI模块(NPU)占据了较大的物理面积,AI Day分享到自研芯片的核心设计目标是最小化延迟且最大化帧率,以提升智能驾驶系统的安全性。2024年,特斯拉开始将HW 4.0部署至新车之上。
神经网络编译器(AI Complier)是特斯拉为适配和优化神经网络在FSD芯片上运行所采取的重要设计之一。与通用芯片不同,FSD芯片围绕一个核心运算操作进行优化——点乘(dot product),这是transformer等神经网络架构里最基础也最普遍的运算之一,而特斯拉的做法是使得这个单一操作尽可能地高效。同时,正如上文所述,特斯拉在车端设计了诸多复杂的神经网络,这些网络也需要基于FSD芯片进行联合的运行效率优化,特斯拉为此专门设计了AI Complier。芯片和软件均为特斯拉自研,使得针对性的适配与推理优化成为可能。
我们认为,为实现车端模型在车端芯片上的高效运行,各个层面均需进行适配和优化,从软件端的神经网络架构、参数量和编译器,到硬件端的内存、缓存和通讯,涉及各个层面,且要求细节的工程落地甚至是不少创新的运行设计,而这恰好是特斯拉垂直整合所带来的重要优势。
图表17:特斯拉在车端设计了神经网络编译器(AI Complier)

资料来源:特斯拉AI Day 2,中金公司研究部
在云端,神经网络在智能驾驶模型中的持续渗透也伴随云端训练算力需求的显著提升。根据AI Day和AI Day 2,特斯拉云端算力已从2019年的不到3,000片GPU增长至2021年8月的近12,000片GPU,2022年10月进一步增长至约14,000片GPU,其中约4,000片用于自动标注、10,000片用于训练。除了从英伟达采购GPU,2023年7月特斯拉自研的云端超级计算机Dojo也正式开始量产[28]。
当前,特斯拉在AI云端算力上采用“外采+自研”并行的模式。根据特斯拉2024年一季度业绩会,当前公司的AI训练算力已超过35,000片H100等效GPU算力,公司预计年底将拥有超过85,000片H100等效GPU算力。我们认为,Dojo的逐步量产,也将有力推动特斯拉云端算力的持续拓展。
图表18:特斯拉云端AI算力拓展情况,2019-2024

资料来源:特斯拉公告,中金公司研究部
图表19:Optimus沿用智能驾驶Occupancy Network

资料来源:特斯拉AI Day 2,中金公司研究部
总结来看,我们认为成本摊薄(规模优势)是特斯拉垂直整合的关键逻辑。自研车端芯片和搭建云端算力是耗时耗力的:特斯拉在2016年组建车端芯片团队,2019年方推出FSD芯片[29];2019年Autonomy Investor Day便提到了Dojo的研发计划,2023年7月方实现量产;2024年一季度特斯拉在AI基础设施上的资本开支为10亿美元,而马斯克称2024年全年特斯拉将投资100亿美元用于AI的训练和推理[30]。高昂投入的背后,我们认为软硬件紧密集成带来的效率提升和成本降低固然是重要考量,而特斯拉广袤的商业版图带来的成本摊薄也是不能忽视的因素。在车辆方面,特斯拉曾设定2030年汽车年销量2,000万辆的目标[31];而在其他领域,特斯拉机器人产品Optimus可以直接沿用智能驾驶里的Occupancy Network等算法模块,甚至AI Day还提到特斯拉仿真的经验可以复用到传感器的设计和标定当中。广袤的商业版图使得,虽然垂直整合的前期投入成本高,但后期特斯拉可以通过汽车和机器人的销量无限摊薄前期成本,与此同时公司的产品力还显著提升,形成典型的规模效应。
创新能力:持续自我进化,智能驾驶创新的引领者
创新能力虽较为“务虚”,但我们认为是特斯拉的核心竞争力之一。智能驾驶的技术栈尚未收敛,当前技术路线尚有许多难点有待攻克,新的技术成果层出不穷,甚至Transformer本身或许也并非最优的架构。这种情况下,拥有目前看领先的技术并不能算竞争壁垒,只有拥有持续自我进化、保持领先定位的能力,才能称得上壁垒,我们认为这是特斯拉的真正优势所在。
如下图所示,从过往几年的发展历程看:一方面,特斯拉似乎总能敏锐地关注到学界业界最新成果中对智能驾驶可能有价值的部分,并高效地吸收转化。例如,2020年诞生的DETR(论文名“End-to-End Object Detection with Transformers”)展现了Transformer架构在计算机视觉物体探测领域的强大能力,而到2021年AI Day特斯拉便宣布采用BEV + Transformer的架构。另一方面,特斯拉也证明了其将创新思想快速落地为实际的技术栈成果的能力。下图所示的论文均为公开的学术成果,其基本思路并不难理解,但是从理想的学术环境搬至现实中,会涉及大量工程落地的细节,如纯视觉架构下不同车辆间摄像头标定的差异如何解决、Lane Network里如何对车道的各种属性进行编码、训练完成的模型如何部署上车并保证运行顺畅等等,才是真正的难点,也最考验工程落地甚至工程创新的能力。当然,新学术成果的落地有成功也有失败,事实上特斯拉更像是扮演了“先行者”的角色,验证了这些成果中哪些是能够落地的、哪些是效果最好的,将工程化做到领先,趟出一条可供其他智能驾驶企业借鉴的道路。
图表20:特斯拉能高效地吸收学界业界的最新成果,并将其快速转化为模型算法的创新

资料来源:Scaled ML Conference‘20,ICML'19,特斯拉AI Day,特斯拉AI Day 2,CVPR 2023,中金公司研究部
[1]除特别批注外,本章内容的资料来源均为特斯拉Autonomy Investor Day(2019年,视频链接为https://www.youtube.com/watch?v=Ucp0TTmvqOE)、AI Day(2021年,视频链接为https://www.youtube.com/watch?v=j0z4FweCy4M)和AI Day 2(2022年,视频链接为https://www.youtube.com/watch?v=ODSJsviD_SU)的公开资料。为节省报告篇幅,下文不再单独批注资料来源链接
[2]资料来源:https://www.youtube.com/watch?v=jPCV4GKX9Dw,下文同,链接不再重复列示
[3]关于这些前沿方案如何赋能智能驾驶,请详见我们的报告《探微智驾(二):AI大模型浪潮赋能智能驾驶》
[4]资料来源:https://mp.weixin.qq.com/s/7rSUVz9kzJz4Fmcj6eXuNg
[5]资料来源:https://mp.weixin.qq.com/s/5iY1nfAtLgXg9_1KrZFBNQ,https://mp.weixin.qq.com/s/oHiwEMBCUL4p1IAQThzlrg,https://mp.weixin.qq.com/s/nvgXxnL1L_N5S7Lqk0drFw
[6]资料来源:https://mp.weixin.qq.com/s/5iY1nfAtLgXg9_1KrZFBNQ
[7]资料来源:https://mp.weixin.qq.com/s/_23cr6r_O-MKvzsGc-sxoQ
[8]资料来源:https://mp.weixin.qq.com/s/mz78zHlqfmLSfcEzRa2M6w
[9]本段资料来源:https://mp.weixin.qq.com/s/W40k96vzNlI7xujSwIWS0A
[10]资料来源:https://mp.weixin.qq.com/s/W40k96vzNlI7xujSwIWS0A
[11]资料来源:https://mp.weixin.qq.com/s/8UZF3uYDq1I19PgJin_8MA
[12]资料来源:https://mp.weixin.qq.com/s/6m1khG3qM1xyFVUn9G2pbw
[13]资料来源:1. https://mp.weixin.qq.com/s/HiZZ8SbNw3-7NripD8S98Q;2. https://mp.weixin.qq.com/s/LENv06o5tW1WEsuxw2V9kw
[14]资料来源:https://mp.weixin.qq.com/s/LENv06o5tW1WEsuxw2V9kw
[15]资料来源:https://www.youtube.com/watch?v=6x-Xb_uT7ts
[16]资料来源:https://mp.weixin.qq.com/s/5Uq1dDRWfpabc-2u4SXkxQ
[17]资料来源:https://www.youtube.com/watch?v=OKDRsVXv49A
[18]资料来源:https://www.tesla.cn/blog/secret-tesla-motors-master-plan-just-between-you-and-me
[19]资料来源:https://www.tesla.cn/blog/master-plan-part-deux
[20]资料来源:https://www.tesla.cn/blog/master-plan-part-deux
[21]资料来源:https://www.tesla.cn/blog/master-plan-part-deux
[22]资料来源:https://mp.weixin.qq.com/s/vlL5mfOe9lHrkwvbhlH2-g
[23]资料来源:https://mp.weixin.qq.com/s/mz78zHlqfmLSfcEzRa2M6w
[24]资料来源:https://mp.weixin.qq.com/s/4LtKAq1wkj2E9rAU88-Qvg
[25]资料来源:https://mp.weixin.qq.com/s/mz78zHlqfmLSfcEzRa2M6w
[26]资料来源:https://www.leiphone.com/category/transportation/cEx9qfhtM3veVmZZ.html
[27]资料来源:https://mp.weixin.qq.com/s/7rSUVz9kzJz4Fmcj6eXuNg
[28]资料来源:https://mp.weixin.qq.com/s/P670WcxFTMnJePd23oR-7w
[29]资料来源:https://mp.weixin.qq.com/s/5iY1nfAtLgXg9_1KrZFBNQ
[30]资料来源:https://mp.weixin.qq.com/s/ieupOXG06b-AHX2LuoA-Pw
[31]资料来源:https://mp.weixin.qq.com/s/P670WcxFTMnJePd23oR-7w
文章来源
本文摘自:2024年9月23日已经发布的《探微智驾(四):海外智能驾驶龙头技术栈——特斯拉FSD与Mobileye》
肖楷 分析员 SAC 执证编号:S0080523060007 SFC CE Ref:BUF316
魏鹳霏 分析员 SAC 执证编号:S0080523060019 SFC CE Ref:BSX734
赵丽萍 分析员 SAC 执证编号:S0080516060004 SFC CE Ref:BEH709
于钟海 分析员 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246
法律声明
