李想在思考什么?聊聊对理想VLA的看法...1、李想对于VLA(视觉语言行为)的预判,比很多人坚决且大胆。甚至可以追溯理想对这次改款的信心,不在车本身,而是更注重主动安全和基于VLA的Thor-U智能版的换新。研读了李想昨天的对话,发现李想本人对于AI的理解,并不是浅知识性,而是从知识储备、公司策略到组织上的一系列构建。对AI内部从讨论、研究再到开发,最后看到产品价值点到推进上市。所以今晚L系列的发布也是一个重要的拐点。昨天李想聊到的VLA,很多理论也跟当时周光跟我分享判断基本一致。我惊讶于李想对于非常强的学习能力外,还有他对整个组织的影响。从DS春节出来后,李想就开始讨论如何在DS开源基础上优化上自己的VLA,就是端到端的多模态化。无论是理想CTO谢炎、理想基座模型负责人陈伟等都在春节的讨论中,甚至让原本计划9月发布的VLA,比预期还要更快。其次在VLA训练中,理想的基座模型并不是做通用模型,所以是把VL也就是视觉、语言一起训练,这里面的视觉(V)需要特殊的基于行车环境的3D以及高清2D图像,车端上的行为(A)也要有更专业的汽车领域的数据和知识,这也是理想做基座模型的原因,因为不可替代。2、行业并不会存在通用的智能体。这个逻辑和周光当时聊天的观点基本一致。周光认为AI从一开始的初级专才(L2)到通才,最后会到高级专才(L5)转变。而这个专才就是能够针对自动驾驶开发的智能体,也无可替代。因为整个行业不会出现一个通用的Agent(智能体),啥都懂啥都干还都干得好。因为不同行业里的VLA,里面的V、L和A(视觉、语言和行为)都不一样。而元戎除了部署L2也尝试在做上了RoadAGI,也就是不仅在道路上的汽车,而是开发外卖、小车等移动机器人,这是未来通向高级专才的渠道之一。而理想要做的改变是怎么让AI真在实现用户价值。这个能力的核心,是从一个信息工具变成一个生产工具的转变,这是和用户构建信任的基础,也称之为司机大模型的原因。3、VLA会变成一个竞争围墙。两个人的判断出奇一致,规则时代做不好的人就做不好端到端,端到端做不好的人更做不了VLA。所以VLA的出现不是一个技术切换,或者能迅速追平的技术。因为VLA要有一个更强大定义的基座模型、数据理解、又有预训练能力,强化学习各系列能力,还要如何把蒸馏后的模型塞进不富裕的算力芯片里。研发上是一个体系,而不是一套算法。同时研发上也变成一个组织协同,而不是某位算法大佬主导一整个革命的时代。其次是体验的围墙,VLA核心体验就是拟人化。VLA大家开始普及后,其中的A带来的体验也会有巨大的差异。其次通过强化学习等手段,VLA的安全模型也能够对应的提升。最后是持久战,VLA更重视积累。第一阶段大家拼的场景,从高速、城区、车位到车位等场景,但VLA拼的都是AI体系、技术积累,组织协同和长期投入。这里和大家分享一段李想的回答:什么是智慧呢?智慧就是我们跟万物的接触。如果你没有去过森林,没有在森林里,认真地玩儿、住过几天,那你可能觉得木头就是做筷子的,就是做纸的,就是做桌子的,而并不是意味着它是一个生命,它是跟我们不同的生命,对吧?你没有跟孩子在一起长时间的生活体验,没有跟他们一起去玩,你就没法真正地去理解孩子。那什么是智慧?我觉得智慧就是我们和万物的关系。但是怎么去提升我跟万物的关系?首先要有足够的时间跟万物去接触。所以我在讲的一个很重要的一个问题,就是今天我们很卷,但这是恰恰是真正的人工智能的意义...理想AITalk第二季理想汽车