广州车展上长城 CTO 吴会肖正式发布了长城 VLA 辅助驾驶大模型,同时宣布最新一代 CP Master 辅助驾驶系统将首搭魏牌。车展期间我们也和魏牌执行副总经理谭健和长城辅助驾驶产品总工程师马骁有一次交流,这里记录一些长城的思考。首先是关于 VLA 的技术路线选择,关于这个现在争论也比较多。在马骁看来,VLA 不是一个全新的东西,还是端到端架构基础之上的东西,但是为什么要 VLA,核心原因有这么几点:1. 常规的端到端辅助驾驶再往后发展会进入边际效应递减的状态。「我们希望 AI 具备一些常识以及推理能力,而不是说他在某一个场景没做好,给他喂更多的数据,让它学习这中间的关联性就好了。我需要这个模型具备一些推理能力,能够适应一些它没见过的场景。我们看一下这个投入产出比,在规则时代,很容易做到 60 分。但如果我想做到 80 分,需要投入很大的资源才可以,所以我们切换到了端到端数据时代。在端到端数据驱动的时代,很容易做到 80 分,但如果想从 80 分做到 90 分,又需要巨量的数据,就像华为说的,生成更多的 Conner case,再喂给这个模型。但 Conner case 怎么生成?Conner case 也需要靠人去识别。比如让你生成「雪天」,如果我不告诉你有「雪天」,你也不会知道,这个数据也是无穷无尽的。也就是说,发展到这个阶段,你的边际收益会很低,当然你可以投入无限的资源来提高它的 Performance,也可以。但更有效的做法是,引入一些已经具备通识能力、推理能力的大语言模型,其实这是现在最好的技术方向,很容易从 80 分做到 90 分。从 90 分再往上做,这个我们可以后面再去看。」换句话说就是需要让辅助驾驶系统从「功能执行」往「场景理解」发展,要知其然还要知其所以然。关于这一点,之前小米在聊 VLA 的时候也提到了,接下来要从数据驱动往认知驱动发展。这里马骁举了一个很有意思的例子是,出门带伞到底是因为看到下雨了带伞,还是因为看到别人带伞了,我也要带伞?这是两个完全不同的推理范式,端到端只能发现它的相关性,没有办法推导出它的因果性。VLA 之前为了突出 L 的部分,搞了语音控车,这个在马骁看来完全是 VLA 的附属产物,长城更看重的是以做思维链的推导过程和场景理解的能力。像长城一直在说的防御性驾驶策略,系统能提前知道自己在哪个地方看不见,可以推理出来这个地方是有风险的,然后去做出机动避让或减速的动作,从而提升安全性。在整个沟通的过程中,长城也一直在强调「安全」,技术要安全的辅助人类,所以可以看到长城的这个 VLA 在功能点上的体验更多都是安全相关的。沟通会上马骁说,当时内部还做了一个招手停车的功能,这个也是比较能体现 VLA 能力的一点,但是最后内部觉得这个炫技的属性比较强,不是很实用。而且如果有误触发还会带来不好的体验,所以最后就没做,当然后续正对交警等特定人群的手势识别后续是在考虑的。2. 辅助驾驶需要可解释性。现在辅助驾驶都是端到端之后相当于是一个类似于黑盒的系统,有 VLA 之后,系统可以把模型是怎么思考的通过文字的形式展示出来。只不过不同于理想的那种事无巨细的展示,长城觉得开车的时候是没精力看那些小作文分析的。所以他们会把关键信息提取出来,把长城认为有风险的点标注出来,让驾驶员能够知道,是因为看到了这个,所以做出了这个举动,就很容易建立安心感。在谭健看来,长远来看肯定会有更高的算力的硬件,也会有新的模型,VLA 不一定是终局,世界模型也不一定是终局。但是当下最需要解决的是车和人信任度的问题,所以在长城看来,CoT 思维链窗口在这个阶段还是很重要的。我个人觉得,可解释性这个东西对研发可能更关键,对于用户来说其实没那么重要,因为归根结底用户要的就是一个好用的辅助驾驶。所以辅助驾驶表现不好的时候只会选择不用辅助驾驶,只有很少的极客用户才会有兴趣去了解到底为什么这里没开好。2025广州车展


