什么是世界模型?我粗鄙的理解为,有了这个模型以后。AI就可以处理现实世界这块“生肉”了,直接通过对“生肉”信息的理解进行决策。就像一个“人“一样。这是自动驾驶的认知革命
辣,现在不是这样的吗?还真不是的。现在的自动驾驶,虽然越来越强。变强的过程更多还是通过不断的堆砌场景、攻克场景来实现的。场景越多,能力越强。
举个例子,当前骨感的做法,学校门口,①感知模块:识别出学生、车辆、红绿灯,分别追踪它们的运动;②预测模块:独立预测每个目标的运动轨迹,可能出现预测冲突;③:规划模块:基于预设规则决策,难以处理复杂交互;
而世界模型的话,构建完整的场景认知→理解各元素间的关联→预判整个场景的演变→理解意图和因果关系→基于整体认知做决策。而且,还能预见潜在风险。
PS:这个场景,可以理解为思维范式。一个人脑子装的高质量的思维范式越多的话,这个人就会越智慧就芒格老先生,装得下几十个高质量思维范式也就成了人类智慧的金字塔尖
也由此可见,顶级的智者,也只装得几十个高质量思维范式。顶级的智驾硬件,是不是也不一定装得下所有场景。
所以,场景多了。每台车在智能驾驶中的每一刻,要去对照这么多场景,之后才能规划决策。也就决定了,要超强的硬件才行。训练数据越高精全面,越会吃硬件。
所以,现在的过渡态,有可能是场景的泛化。在泛化的过程中,没有真的就泛泛了之了。而是继续能够保持高精度的同时,保持可解释性和可重复性。
如果这条泛化的路能走通的话,那么世界模型也就在眼前了。逐渐的:
从特征学习到场景学习、从被动适应到主动理解,具备持续进化能力从”感知-决策”的线性模式转向”理解-预测”的整体认知从预设规则的组合转向深度理解的推理,还能处理前所未见的场景。但是,再次粗鄙的觉得。世界模型与现在的智驾系统之间的关系,不是颠覆,而是继承与进化。中翻中一下:现在智驾做得不好的,很难凭空就搞出一个世界模型来。
高质量场景数据,去之后抽象泛化的基础。抽象泛化之后,才有世界模型。这
不是一次换道超车,而是有后发者劣势。
基础的:能不能构建一个统一的神经网络架构?能够不构建四维时空认知?能不能实现自监督学习?再往上:泛化求解的能力,如何应对极端场景,边界条件如何界定,黑盒白盒灰盒的尺度在哪?
赶紧,扎实打好基础吧。