分享了小鹏团队最新的研究成果“为VLA模型，定制的视觉Token剪枝”新框架，做

分享了小鹏团队最新的研究成果“为VLA模型，定制的视觉Token剪枝”新框架，做个通俗的讲解：1、为什么做这个研究？现在的自动驾驶模型（VLA），看路的时候是个“老实人”。摄像头拍到了什么，它就看什么。不管是行人、车、红绿灯，还是天气、路边的树木，它都一股脑全塞进脑子里去算。结果就是——脑子转不过来了（计算量太大），反应慢半拍（推理延迟高）。这篇论文的目标：让车学会“偷懒”，只看该看的，别看没用的。2、它是怎么做的？既然人是“有选择性”地看，那模型能不能也这样？把图像里那些没用的部分剪掉，只保留关键信息，这样算得快，车也开得好。我们把一张行车摄像头拍到的照片，切成几千个小方块（就像拼图碎片一样），这些小方块就叫 Token。作者设计了一个ReconPruner（重建剪枝器）。它的功能就像一个“分拣员”工作流程如下：-做个标记：分拣员把所有拼图碎片拿来看一眼。如果是车、人、路（前景），打高分，留下来。如果是天、树、楼（背景），打低分，丢进垃圾桶。怎么训练这个分拣员不瞎扔呢？通过：前景-背景对抗重建为了防止它把“红绿灯”当成垃圾扔了，作者搞了个“拼图还原游戏”系统要求：用你留下的这些高分碎片，必须能把主要的画面路况给重建画出来。如果不小心把背景留下来了，或者把前景扔了，就惩罚它。通过这种训练，逼着这个“分拣员”变得火眼金睛，只留干货。即插即用：作者把这个“分拣员”做得特别轻巧（参数很少），可以插到各种不同的自动驾驶大模型前面用。3、性能指标如何？在切掉很多无用碎片（剪枝比例25%、50%、75%）的情况下，它开车的水平比现有的其他方法都要好。它的计算量（FLOPs）降低了约 7.5倍。原来要做7次数学题，现在做1次就够了。反应速度（推理延迟）大大提升，预处理时间快了3倍多。论文标题：《FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》有兴趣的同学，可以查阅原文章。

0 阅读：0