理想回应雷达在无人陵园内显示全是人影，这事儿怎么看？

其实说白了还是感知问题。

用理想自己的说法，现在用的是「激光雷达和视觉摄像头融合感知」。再往深了说，其实还是摄像头感知为主，激光雷达为辅。

但是感知这件事其实并没有那么好做。

你以为摄像头捕捉到图像，然后根据图像直接识别对吧？

但其实，并不是这样。虽然我们看到的是图⽚，但是在计算力眼中，它看到的其实是⼆维⽹格，需要进⾏转换和编码。

摄像头感知要经过检测、分类、跟踪、语义分割的过程

检测：找出这个物体的位置

分类：弄清楚这个东西是啥？

跟踪：即持续追踪这个物体的动作

语义分割：将像素和语义类别进行匹配

比如上图特斯拉的占用网络，用8 个摄像头的视频流作为输⼊，生成的3D模型，但是其中用到了不同的颜色来对不同物体进行分类。

那么具体感知过程其实是这样：输入图片之后，我们会对图片进行预处理，然后提取特征：

然后，最关键的其实还是分类。这个过程其实就是对提取到的特征进行训练。

比如你要让感知认出狗子，那就要大量输入相关模型，让计算机去学习，哦，原来这叫狗。

这事儿还真不容易，因为你总会遇到很多corner case（极端情况），就像下面这种：

对摄像头来说，你说它是车吧，但是它还背着个自行车，所以，到底把它识别成自行车呢？还是车呢？this is a question。

那么，对应的理想这事儿，其实就好理解了。就是遇上corner case了。

理想给自己的计算机视觉喂养数据，一般都来自道路场景，那么，陵园场景，就是一个基本上不会碰到的也没想到去训练的场景。

谁也不会无聊到逮到自己的计算机神经网络，然后给它看各种墓碑形状吧，让它去认吧，想想就有点瘆人.......

然后，在你对外的UI发布上，墓碑也要占据一席之地。

只能说，这个场景确实有点刁钻了hhh，不知道后续理想会不会补齐。

那么，最后一个问题，理想为什么结合摄像头+激光雷达做感知？

其实很好理解，本质就是视觉感知能力不强，可能无法非常准确的辨别物体，激光雷达能很好的补齐短板。

比如之前难到特斯拉的一个场景，8个摄像头各自捕捉各自的，无法准确识别

在自己感知能力不强的情况下，激光雷达则能直接到这个物体的3D信息：

还原一下上面大车场景就是：

摄像头：这玩意儿，是个什么东西，小车？大车？静止的车？认不出来啊。

激光雷达：这是一个非常大、又长、且在运动中的立方体

摄像头：比对一下资源库，明白了，这是一个大车！

大概就是这样。

好了，散会！

注：图片来自网络，侵权请联系删除）

如果你觉得内容不错，欢迎点赞、关注、转发，这对我的创作有很⼤帮助。

世良情感网