智己：智驾技术第一梯队，国家队也有责任

文｜Karakush

如果你对智驾保持敏锐跟踪，会发现今年在华小理等“老头部人”之外，智己也高频出现在横评第一梯队之列。

智己智驾的含金量在飙升。

10月28日，智己在“智驾技术日”正式推出基于“一段式端到端大模型”的IM AD 3.0，这个最新版本具备生成“本能反应主导的直觉决策能力”。

端到端大模型被认为是智驾赛道的新机会。尤其是在特斯拉推送FSD V12版本之后，国内很多车企都更加确信这条路线，组建相关团队攻坚，各家都有趋同的大方向，也有各自不同的解释方法和工程方法。

“直觉”是智己定义的目标，第一次被引入智驾语言体系，区别之前“最像人”的理想状态，智己把智驾天花板带到“有直觉”的一代。从其中的技术底座，到规模量产进度，再到其中体现的系统性优势来看，智己都已经来到技术爆发点。

区别其他头部企业，智己有一些特殊性。作为上汽的高端品牌，他们是高阶智驾技术队伍中极其少见的国家队，大部分玩家是新势力，或者华为这样的跨界巨头，这些企业更能容忍和承受技术前沿摸索中注定伴随的创新风险，而相对风险厌恶的国家队通常是在技术成熟之后下场。

同时，智己也不像其他公司那样建立完全in-house的自研团队，而是选择与Momenta合作。供应商模式经常被吐槽协同和迭代效率问题，但是智己却拿出惊人的速度，从2021年正式达成战略合作，到2023年完成“两段式端到端”的量产，只用两年；到今年则是实现难度更大的一段式端到端。

我觉得智己非常精准地反映了近几年智驾领域的一个规律：在新的技术周期，我们不能以传统的投入和地位看待优劣，谁都有颠覆与被颠覆的可能；当然，也不存在毫无来由的狂飙突进，一切爆发都是有备而发。

IM AD的含金量：智驾进入直觉时代

目前业内第一梯队都在紧跟“一段式端到端大模型”，但是设计架构和体系能力各有不同，最终决定各家“端味”的差异。拿智己IM AD来讲，技术很强，同时特别强调直觉的体验和规模化的可行性。

首先，IM AD是比较完整体的一段式，取消了分模块的结构，用一个神经网络处理来自各类传感器的原始数据，直接生成路径规划。强调“一段式”，是因为业界有些端到端是通过分段式，由几个小模型通过一些规则耦合实现，其实差距很大。

端到端的最大优势，是能解决长尾问题。我们拿水坑举例，传统规则方法需要人为定义“水坑”，用大量数据训练感知模型识别水坑，再训练规划模型绕开水坑；而端到端无需定义，直接学习规避水坑。所以面对未定义障碍物、隐藏的极端场景，端到端的适应能力和泛化能力更强，可以完成从不能开到能开的飞跃。

至于分段式，实际上没有摆脱小模型之间人为定义算法规则，对于超纲场景还是不行或者需要堆人力写补丁去解决问题。

IM AD的一段式，完全打通感知和规控，可以做到无损传递，并且能从输出的规划端反向传递给神经网络更新参数，获得全局优化，在智能性、舒适性、安全性上都能达到了更高的天花板水平。

缺点就是研发难度大，包括怎么Debug、怎么提升黑盒过程的可解释性、怎么高效迭代解决方法，需要很强的系统研发力量支撑。同行的进度就是最好的衬托，足以看出智己和Momenta的实力。

第二，IM AD追求的“直觉”，高度拟人。他们把直觉定义为“车随心动”，人直觉怎么开，车就是这么开的——并且是好司机的直觉，IM AD会从数据中筛选好的驾驶行为指标，比如横向避让多少、加速多少等参数，用好的行为数据指导智驾学习。

智己相信，智驾的终局一定是像人一样开车。这也是他们坚定一段式端到端的原因，人开车的时候不会先认识这是什么、再做规划，而是基于经验和习惯形成直觉式的反馈；在这个理念下，IM AD把仿真人脑更进一步，做出“快系统”和“慢系统”的设计。

快系统负责直觉推理，处理简单任务，应对90%的场景，类似人类基于经验和习惯形成直觉行事；慢系统负责逻辑分析，是一个安全驾驶模型，应对剩下10%的场景，提供安全性更高的保护与应急策略。

快慢系统配合，可以确保大部分场景下的高效率和少数场景下的高上限，这是IM AD在端到端大趋势之外的差异化设计，是智己对于智驾的理解。

第三，IM AD不是炫技术的trophy tech，而是十分讲求可规模化的，其中的一项重要指标就是训练成本。

如果细看结构，IM AD的端到端存在两个支线，也是模仿人脑设计的长期记忆和短期记忆机制，长期记忆就是端到端大模型，短期记忆则是由DDOD+DDLD（基于数据驱动的感知模型）加上DLP（基于深度学习的规划模型）组成，主要用来验证解决方法和训练数据是不是好方法、好数据，快速高效试错。被短期记忆验证的方法和数据，经过积累再应用到端到端大模型上，保证长期记忆的训练高效。

增加短期记忆设计，是为了降低试错成本，短期记忆的训练成本较低，训练周期较短。相比之下，大模型训练的试错成本非常高，如果方法或者数据错误，损失惨重。对比直接采用端到端大模型训练，IM AD长短期记忆架构的训练成本应该能低10到100倍。

从技术、到理念、到可行性，IM AD 3.0都做出了结构性和系统性优势，落到实际体验，就会发现这个版本也可以做到全国都能开、全国都好开的水平，智己在本月已经在全国范围内开通全系车型“无图城市NOA”，在典型复杂场景比如慢车/占道车绕行、横穿预判、路口多人博弈等都能做到很好的通行效率，同时兼顾安全冗余。

长期主义兑现：同时具备

L2、L3、L4量产能力的第一品牌

今天来看，IM AD得以在一两年内从默默无籍到飞速成长，一个重要原因是早期蓄势过程中少走很多弯路，他们很早就确定数据驱动路线。

智己选择和Momenta合作是在2021年。当时业内就曾有过流派之争，一种是规则算法（Rule-Based），另一种是智己选择Momenta选择的数据驱动（Data-Driven）。

放在早期行业聚焦高速NOA的背景里，规则算法有其优势，它可以更快针对场景做出卖点给到用户；而数据驱动相对训练量更大，起步更难，尽管有些场景会有惊艳表现，但是很多场景会有很多匪夷所思的问题，需要不停学习优化。所以前几年很多智驾产品都选择规则算法。

但是智己和Momenta一直相信智驾很快会实现城区NOA，会从L2++实现到L3、L4。一旦场景从规则化道路切到城区，复杂程度指数级增加，数据驱动就会是更优解。这和他们到今年坚定一段式端到端，是一样的终局思维，以终为始去做难而正确的事。

在把握大趋势之后，真正决定智驾产品水平的指标，一是数据飞轮体系能力，二是系统迭代效率。

为此，智己搭建了全级别的智驾平台，共平台开发L2、L3、L4，共享数据池和一段式端到端大模型。比如L2++采用12个摄像头，加上三个毫米波雷达、一个激光雷达和冗余摄像头，就能做L3；增加三个激光雷达、执行器和控制器等冗余增量，就能做L4，当然算法和安全要求会有不同。

这样做的好处，不仅是可以提供不同维度层级的服务，也能以更好的成本、更好的效率提升IM AD的系统迭代。比方说，通过大量L2工程实践、数据获取和训练，支撑L3、L4研发；L3、L4的核心是去提升智驾系统的可用性、和对复杂场景的应对，这些高级别成果能赋能到L2场景，提升L2的性能。通过这种方式，智己成为全国唯一同时具备L2、L3和L4研发和量产能力的品牌，IM AD也得以疯狂成长。

去年IM AD仅用8个月开通全国高速高架NOA，到2024年初在上海首发城市NOA，到9月底全新LS6上市开通全国无图城市NOA，过程中还经历从原来的高精地图方案切换成轻地图方案的技术变更，挑战很大。

这样的进步，一方面是源自开发逻辑和架构设计，另一方面也是源自团队战斗性。智己和Momenta虽然是两个公司，但是合作效率惊人。IM AD系统内部提出“智驾摩尔定律”的概念，就是硬件每两年成本降一半，软件每两年水平至少提升10倍。这是经验公式，他们认为能超越定律的公司才能存活。

而作为目标他们追求更高，比如要求数据闭环效率从以月为单位加速到以天为单位。同时在开发过程中，比如OTA升级上什么功能，系统版本涉及到的变更，都由两个团队共同讨论评估。放在任何一家公司的内部团队，都是业内凤毛麟角。

用技术引领，定义智驾第一梯队

今天行业里针对第一梯队会提出很多技术、场景、人才、资源投入的标准。归根到底，那些得以进入第一梯队的公司，区别其他公司的标志，是对于智驾的认知和决心，是不是跟风、是不是投机、是不是炫技，还是真实相信它是下半场的决胜要素，在技术周期尚不明朗的时候勇敢抓住趋势，快速试错、快速成长、快速发展优势。

智己在成立之初就有清晰的思考，把智驾当做核心DNA。这不是靠说的。你可以在产品上看到这种核心的位置。

比如智己主打灵蜥数字底盘，和智驾互为赋能，它的“云台车身”依托智驾系统的精准感知，识别大曲率弯道，对底盘进行智能调整；反过来，城市NOA遇到调头会用到智慧四轮转向，更小半径的调头，不用在双向两车道的道路上频繁打方向，提升智驾体验降低复杂度。

你也可以在营销策略上看到智驾的逻辑。比如在最近推出的新车型智己L6、全新LS6上，都是全系标配激光雷达、Orin X芯片，同时软件终身免费。智己的想法是，基于数据驱动，就是要让所有用户都能用到高阶智驾，如果采用收费制度，使用高溢价模式，就会提升使用门槛，不利于快速迭代。就像拍照之于智能手机，必须标配。

而这种放眼未来的眼界，正在逐渐等来加速而来的时代，根据智己的数据，上周用户在日常出行当中使用IM AD的比例是81.4%，使用IM AD均值95.65公里，NOA均值102.5公里，ACC最少2.5公里，Pilot均值23.3公里，IM AD使用黏性非常强。

智驾不再是个别企业的自嗨，随着技术和体验成熟，逐渐渗透购车决策，权重会变得越来越高。智能电动车下半场真正泄洪，那些长期主义的投入，回报不会太长。