周光今天提到VLA几个细节:周光认为过去的端到端就是CNNBase,来

楷瑞看汽车啊 2025-08-26 16:51:28

周光今天提到 VLA 几个细节:

周光认为过去的端到端就是 CNN Base ,来到 VLA 就是 GPT Base。

这里面最重要的差异就是过去的端到端是基于 BEV ,没有空间意识。原理更像坦克大战可以用天空视角看到各种坦克,但是实际开车是 CS ,是一个第一人称视角。

所以遇到盲区的时候只要没车、没起步的车,就很难读懂场景,没有空间意识,BEV 只有朝向、速度值。

来到 VLA 后多了 COT 的思维链、长时序。在推理时间和推理能力上会更强,比如遇到盲区会适当做防御性减速,会对复杂的环境信息做语言的推理。

而这个能力周光认为更像一个通才的能力。这也是为什么元戎选择做 Road AGI 的原因。

其次 VLA 和第一代端到端,周光认为最大的区别就是大算力、大参数。CNN 始终是小参数小模型,包括小鹏、特斯拉在内都在用大参数,大算力,本质也是VLA的一种方向,区别是对芯片的选择上。

另外 VLA 的模型架构和训练方式是两种不一样的逻辑,两者不冲突,到底是用什么方式训练不同公司有不同选择,数据也是多元的。

目前元戎的 VLA 已经有 5 个车型定点。VLA 模型做好后会有一些裁剪、蒸馏等,在不同芯片、激光雷达上都可以适配,会以 Thor 为开始,国外和国内的其他芯片都可以适配,今年会开始交付。

但 VLA 语音车控能力周光认为不是 VLA 一个能力方向。

新能源汽车大v聊车

0 阅读:1
楷瑞看汽车啊

楷瑞看汽车啊

感谢大家的关注