分享了小鹏团队最新的研究成果“为VLA模型,定制的视觉Token剪枝”新框架,做个通俗的讲解:1、为什么做这个研究?现在的自动驾驶模型(VLA),看路的时候是个“老实人”。摄像头拍到了什么,它就看什么。不管是行人、车、红绿灯,还是天气、路边的树木,它都一股脑全塞进脑子里去算。结果就是——脑子转不过来了(计算量太大),反应慢半拍(推理延迟高)。这篇论文的目标: 让车学会“偷懒”,只看该看的,别看没用的。2、它是怎么做的? 既然人是“有选择性”地看,那模型能不能也这样?把图像里那些没用的部分剪掉,只保留关键信息,这样算得快,车也开得好。我们把一张行车摄像头拍到的照片,切成几千个小方块(就像拼图碎片一样),这些小方块就叫 Token。作者设计了一个ReconPruner(重建剪枝器)。它的功能就像一个“分拣员”工作流程如下:-做个标记:分拣员把所有拼图碎片拿来看一眼。如果是车、人、路(前景),打高分,留下来。如果是天、树、楼(背景),打低分,丢进垃圾桶。怎么训练这个分拣员不瞎扔呢?通过:前景-背景对抗重建为了防止它把“红绿灯”当成垃圾扔了,作者搞了个“拼图还原游戏”系统要求:用你留下的这些高分碎片,必须能把主要的画面路况给重建画出来。如果不小心把背景留下来了,或者把前景扔了,就惩罚它。通过这种训练,逼着这个“分拣员”变得火眼金睛,只留干货。即插即用:作者把这个“分拣员”做得特别轻巧(参数很少),可以插到各种不同的自动驾驶大模型前面用。3、性能指标如何?在切掉很多无用碎片(剪枝比例25%、50%、75%)的情况下,它开车的水平比现有的其他方法都要好。它的计算量(FLOPs)降低了约 7.5倍。原来要做7次数学题,现在做1次就够了。反应速度(推理延迟)大大提升,预处理时间快了3倍多。论文标题:《FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》有兴趣的同学,可以查阅原文章。
