其实说白了还是感知问题。
用理想自己的说法,现在用的是「激光雷达和视觉摄像头融合感知」。再往深了说,其实还是摄像头感知为主,激光雷达为辅。
但是感知这件事其实并没有那么好做。
你以为摄像头捕捉到图像,然后根据图像直接识别对吧?
但其实,并不是这样。虽然我们看到的是图⽚,但是在计算力眼中,它看到的其实是⼆维⽹格,需要进⾏转换和编码。
摄像头感知要经过检测、分类、跟踪、语义分割的过程
检测:找出这个物体的位置
分类:弄清楚这个东西是啥?
跟踪:即持续追踪这个物体的动作
语义分割:将像素和语义类别进行匹配
比如上图特斯拉的占用网络,用8 个摄像头的视频流作为输⼊,生成的3D模型,但是其中用到了不同的颜色来对不同物体进行分类。
那么具体感知过程其实是这样:输入图片之后,我们会对图片进行预处理,然后提取特征:
然后,最关键的其实还是分类。这个过程其实就是对提取到的特征进行训练。
比如你要让感知认出狗子,那就要大量输入相关模型,让计算机去学习,哦,原来这叫狗。
这事儿还真不容易,因为你总会遇到很多corner case(极端情况),就像下面这种:
对摄像头来说,你说它是车吧,但是它还背着个自行车,所以,到底把它识别成自行车呢?还是车呢?this is a question。
那么,对应的理想这事儿,其实就好理解了。就是遇上corner case了。
理想给自己的计算机视觉喂养数据,一般都来自道路场景,那么,陵园场景,就是一个基本上不会碰到的也没想到去训练的场景。
谁也不会无聊到逮到自己的计算机神经网络,然后给它看各种墓碑形状吧,让它去认吧,想想就有点瘆人.......
然后,在你对外的UI发布上,墓碑 也要占据一席之地。
只能说,这个场景确实有点刁钻了hhh,不知道后续理想会不会补齐。
那么,最后一个问题,理想为什么结合摄像头+激光雷达做感知?
其实很好理解,本质就是视觉感知能力不强,可能无法非常准确的辨别物体,激光雷达能很好的补齐短板。
比如之前难到特斯拉的一个场景,8个摄像头各自捕捉各自的,无法准确识别
在自己感知能力不强的情况下,激光雷达则能直接到这个物体的3D信息:
还原一下上面大车场景就是:
摄像头:这玩意儿,是个什么东西,小车?大车?静止的车?认不出来啊。
激光雷达:这是一个非常大、又长、且在运动中的立方体
摄像头:比对一下资源库,明白了,这是一个大车!
大概就是这样。
好了,散会!
注:图片来自网络,侵权请联系删除)
如果你觉得内容不错,欢迎点赞、关注、转发,这对我的创作有很⼤帮助。
人死为鬼,鬼死为聻,鬼还是有影的
那个视频是东北拍的吧,东北拍的视频不都是段子吗
滾蛋
说的是些啥乱七八糟的
有些东西看不见,并不代表它不存在。本人亲身经历和阿飘对话两个多小时。
胡说八道,难道墓碑会被识别成人,还骑着自行车跑?
理想雷达误打误撞打开了异次元空间[笑着哭]