最近斯拉AI副总裁AshokElluswamy在ICCV上所做的

又莲说汽车啊 2025-10-23 23:10:22

最近斯拉 AI 副总裁 Ashok Elluswamy 在 ICCV 上所做的 FSD 真的是沸沸扬扬~

红仔在上篇文章也是也是简单的总结了一下,那么我们接着这个话题来猜一猜FSD最新的版本架构是如何的?

红仔觉得FSD应该也是一个快慢系统。

第一个系统是多模态的E2E, 以V+LBS+ 自车的速度定位为主+ 导航需求【导航需求是直接隐射再视觉空间坐标权重偏好里面】,然后直接输出 油门+刹车

另一个系统是 一个 基于LLM 做的VLA,只是用了单个摄像头/会切换摄像头的一个 VLA,然后输出所谓的图像决策【图像tonken】,再以主模型的感知偏好里面去调节。类似右侧是施工的标识,就将右前方的区域全部降权重,因此 决策都是来自于1号主模型输出的

并且系统2是可以做多轮回答的,需要时可以超过3轮

这套架构如何去找车位?举个场景例子:我去得来速

一。导航需求直接在 VA模型的Bev空间进行权重调节,一直可以拉到 停车场口子为止

二。然后进入园区以后,导航没了,这个时候系统就会进行导航需求的权重调节,因此自动会进入类似的漫游模式【NOA漫游】

三。进入漫游的同时异步的LLM ,前向感知会去 给出一个 任务【类似 Where is MC?】 then 给出 BEV空间的 Mark 权重,然后调节Bev 空间中引导。COT思维连可能是?

Q1: Where is 得来速的通道 ?

A1:右前侧

Q2: 怎么开过去 ?

A2:这里是死路,可能要从后面绕,后面有个引导牌子,估计是得先开到引导牌子 ?

Q3:开过去后发现 引导牌子确认后,如何进到得来速的 通道?

A3:检测BEV空间中两边的边缘性,跟着 通道的前车慢慢开。

四。最后主模型输出 BEV引导线,并调节VA 模型中的减速

PS:红仔觉得FSD可能是可达是用主模型来做的,LLM仅仅只是来做引导,并且这个慢系统会一边开一边想

大v聊车自动驾驶AI大模型

0 阅读:0
又莲说汽车啊

又莲说汽车啊

感谢大家的关注