宇树王兴兴认为,VLA架构不够完善。
理由是VLA+RL 太过依赖高质量数据,迟迟无法突破临界点。他认为,世界模型和视频生成模型是更值得关注的两个方向。
蔚来曾在8月初的文章中,解释过世界模型与VLA的区别:当蔚来世界模型打开语言输入,它包含VLA的所有特征。
同时,蔚来世界模型在空间理解和长时序建模能力会更强,也具备生成式仿真的能力,进行自回归训练。
智驾的架构之争是每年的保留节目,从高精地图到全国无图,从规则模型到E2E,从VLM到VLA,不管什么路线 最终还是落在体验上。
而体验包括两部分,第一是安全,第二是效率。