这张图还是很清楚的解释了VLA是个啥。简单说就是通过摄像头看到了画面(Visio

元香评汽车啊 2025-11-05 16:29:46

这张图还是很清楚的解释了VLA是个啥。

简单说就是通过摄像头看到了画面(Vision),然后用大模型解读画面提取有效信息(Language),再通过大模型针对信息给出决策(Action)参考

存在着大模型解读画面的信息损失和延时,还有根据信息给出Action的信息损失和延时,所以VLA是个快不起来的东西。

小鹏科技日

0 阅读:0
元香评汽车啊

元香评汽车啊

感谢大家的关注