(1)行业定义
计算机视觉(Computer Vision)是人工智能领域的一个重要分支,旨在赋予计算机类似人类的视觉能力,使其能够提取、处理、理解和分析图像及视频内容。计算机视觉的核心技术包括特征提取、目标检测、图像分割、3D重建等。
图表1 计算机视觉识别效果示意图
信息来源:整理
(2)行业分类
计算机视觉的行业分类可以根据其核心任务和应用领域进行划分。以下是计算机视觉的主要分类:
(1)对象检测(Object Detection)
对象检测的目标是在图像中定位出目标对象的位置和轮廓,这些目标对象可以是人物、车辆、物品等。对象检测技术在安全监控、智能驾驶、人机交互等领域有着广泛的应用。
(2)图像分类(Image Classification)
图像分类的目标是将输入的图像自动分类到预定义的类别中。这项技术广泛应用于图像内容识别、智能相册、广告推荐等领域。随着深度学习技术的发展,卷积神经网络(CNN)已成为图像分类的主流方法。图像分类可进一步发展为实例分割(Instance Segmentation)和语义分割(Semantic Segmentation):
实例分割:实例分割在图像分类的基础上,进一步区分同一图像类别的不同对象实例,在机器人交互、精细农业、影像分析等领域有着重要应用。
语义分割:语义分割旨在将图像中的每个像素分配给特定的语义类别,实现对图像内容的深入理解。例如,将图像中的天空、草地、人物等分别标注出来。语义分割技术在自动驾驶、机器人导航等领域具有广泛应用前景(3)三维计算机视觉(3D Computer Vision)
三维计算机视觉包括三维重建、3D物体检测和识别、三维语义分割等任务,为虚拟现实(VR)、增强现实(AR)、3D建模、机器人导航等应用提供基础。立体视觉、多视图几何、点云生成和融合是实现三维视觉的关键技术。
(4)目标跟踪(Object Tracking)
目标跟踪关注在视频序列中准确跟踪目标对象的位置和运动轨迹。这要求算法不仅能识别目标对象,还要分析和预测目标在连续帧间的运动。目标跟踪技术在视频监控、运动分析、智能导航等领域具有应用价值。基于深度学习的跟踪算法在处理复杂场景和动态目标时展现出优异性能。
图表2 目标跟踪示意图
信息来源:CSDN,研究整理
(5)视频理解与分析(Video Understanding and Analysis)
视频理解与分析涉及对视频内容的识别、解释以及时空结构的推理,包括视频分类、动作识别、视频生成和编辑等任务。这项技术在监控、医疗、教育等多个方向展现出广泛的实用价值。
(3)行业特征
(1)多学科交叉
计算机视觉是一个涉及计算机科学、工程学、物理学、生物学、认知科学等多个学科的交叉领域。其中,生物学、认知科学研究人类的视觉与认知,是研究计算机视觉的基础;计算机科学中的理论、算法、架构等研究计算机视觉的工具;工程学、物理学便于计算机视觉应用于对现实世界的分析。计算机视觉利用这些学科的理论和方法,使计算机能够模拟人类视觉系统,完成图像和视频的提取、处理、理解和分析。多学科交叉在计算机视觉的技术发展和迭代中持续发挥重要作用,例如:将注意力机制引入到计算机视觉领域、将知识图谱作为辅助信息进行复杂的计算机视觉任务分析等。
(2)行业应用广泛
计算机视觉技术在交通运输、医疗、制造业、农业、零售业等行业均有广泛的应用。
1、交通运输行业
自动驾驶:计算机视觉用于检测和分类物体(如路标或交通信号灯)、创建3D地图或运动估计,使自动驾驶汽车成为现实。
行人检测:自动识别和定位图像或视频中的行人,用于自动驾驶、交通管理等领域。
车位占用检测:跟踪停车场车位使用情况,可与车牌识别结合进行缴费和放行。
流量分析:基于摄像头拍摄画面进行交通流量跟踪和估计,帮助设计更好的交通管理系统。
路况监测:用于评估基础设施状况和路面缺陷检测。
2、医疗行业
癌症检测:利用计算机视觉技术识别可能存在的异常和变化,用于乳腺癌和皮肤癌等癌症的检测。
辅助诊断:分析CT、核磁共振、X射线等成像结果,辅助医生进行病理诊断。
运动分析:分析患者的运动情况,帮助医生诊断神经和肌肉骨骼疾病。
3、制造业
质量控制与缺陷检测:通过图像识别和模式匹配算法,计算机视觉系统能够自动检测产品尺寸、颜色、图案等是否符合质量标准。例如,在手机制造过程中,计算机视觉技术可以用于屏幕显示检测,判断显示是否正常,从而提高产品的整体质量和生产效率。
智能制造与自动化:随着智能制造的发展,计算机视觉技术被嵌入工业机器人控制系统,通过精准化的识别和抓取,大幅提高了生产过程的柔性和灵活性。
安全监控与事故预防:通过监控工人防护装备的穿戴情况、工人的操作行为和设备的状态,计算机视觉系统能够识别潜在的危险并及时发出警告,从而预防事故的发生。
4、农业
作物和产量监测:持续实时监测作物生长,检测由于营养不良或疾病引起的生长情况和产量变化。
杂草和昆虫检测:智能检测杂草,识别、分类和计数威胁作物的昆虫,有助于实现农药的适量、精准投放。
牲畜健康监测:实时监控牲畜状况及其行为,监测并分析健康情况。
5、零售业
监控分析:分析店内摄像头拍摄画面,检测可疑活动并提醒员工。
补货提醒:跟踪货架上的物品,提供关于缺货的即时通知,协助进行库存管理。
人流量统计:检测和统计进出商店的人数,方便调配人手、组织排队等。
(4)发展历程
数据治理行业内的参与者主要包含三类,分别为独立数据治理服务提供商、大型科技公司、云服务商。
(1)20世纪50年代:二维图像分析和识别的出现
1959年,神经生理学家David Hubel和Torsten Wiesel通过猫的视觉实验,首次发现了视觉初级皮层神经元对于移动边缘刺激敏感,发现了视功能柱结构,为视觉神经研究奠定了基础。这一发现促成了计算机视觉技术40年后的突破性发展,奠定了深度学习之后的核心准则。同年,Russell Kirsch和他的同事研制了一台可以把图片转化为被二进制机器所理解的灰度值的仪器,被认为是第一台数字图像扫描仪。从此,处理数字图像开始成为可能。
图表3 猫的视觉实验示意图
信息来源:CSDN,融中研究整理
(2)20世纪60-70年代:理论体系的形成
1965年, Lawrence Roberts《三维固体的机器感知》描述了从二维图片中推导三维信息的过程,开创了以理解三维场景为目的的计算机视觉研究。Lawrence Roberts对积木世界的创造性研究给人们带来极大的启发,之后人们开始对积木世界进行深入的研究,从边缘的检测、角点特征的提取,到线条、平面、曲线等几何要素分析,到图像明暗、纹理、运动以及成像几何等,并建立了各种数据结构和推理规则。
1977年,David Marr在MIT的实验室提出了计算机视觉理论,使计算机视觉有了明确的体系,促进了计算机视觉的发展。
(3)20世纪80-90年代:理论和技术的不断突破
1980年,日本计算机科学家Kunihiko Fukushima在Hubel和Wiesel的研究启发下,建立了一个自组织的简单和复杂细胞的人工网络——Neocognitron,包括几个卷积层和滤波器。这些滤波器的功能是在输入值的二维数组(例如图像像素)上滑动,并在执行某些计算后,产生激活事件(2维数组),这些事件将用作网络后续层的输入。Fukushima的Neocognitron可以说是第一个神经网络,是卷积神经网络(CNN)中卷积层+池化层的最初范例及灵感来源。
1982年,日本COGEX公司研发出视觉系统DataMan,是世界第一套工业光学字符识别(OCR)系统。
1989年,YannLeCun将一种后向传播风格学习算法应用于Fukushima的卷积神经网络结构。在完成该项目几年后,LeCun发布了LeNet-5。这是第一个引入今天仍在CNN中使用的一些基本成分的现代网络。如今,CNN已经是图像、语音和手写识别系统中的重要组成部分。
1997年, JitendraMalik和他的学生发表了一篇论文,试图让机器使用图论算法将图像分割成合理的部分,即自动确定图像上的哪些像素属于一起,并将物体与周围环境区分开来。
(4)21世纪初:高质量数据集与深度学习的出现
2006年,Pascal VOC项目启动。它提供了用于对象分类的标准化数据集以及用于访问所述数据集和注释的一组工具。
2006年左右,Geoffrey Hilton和他的学生发明了用U来优化深度神经网络的工程方法,并发表在《Science》和相关期刊上发表了论文,首次提出了“深度信念网络”的概念。他给多层神经网络相关的学习方法赋予了一个新名词 “深度学习”。此后,关于深度学习的研究不断涌现,广泛应用在人工智能各领域。
2009年,李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,发布了ImageNet数据集,旨在检测计算机视觉能否识别自然万物。2010-2017年,基于ImageNet数据集共进行了7届ImageNet挑战赛,将目标检测算法推向了新的高度。
(5)2010年至今:算法的不断迭代
2012 年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 创造了一个“大型的深度卷积神经网络”,这是史上第一次有模型在 ImageNet 数据集表现如此出色,将机器识别的错误率从25%左右降低至跟人类相比差别不大。
2014年,蒙特利尔大学提出生成对抗网络(GAN):拥有两个相互竞争的神经网络可以使机器学习得更快。一个网络尝试模仿真实数据生成假的数据,而另一个网络则试图将假数据区分出来。随着时间的推移,两个网络都会得到训练,生成对抗网络(GAN)被认为是计算机视觉领域的重大突破。
此后,计算机视觉算法不断迭代优化。例如,Facebook声称其DeepFace人脸识别算法有着97.35%的识别准确率;Lin, Tsung-Yi等提出特征金字塔网络,可以从深层特征图中捕获到更强的语义信息;亚马逊网络服务(AWS)宣布对其识别服务进行了一系列更新,为云客户提供基于机器学习的计算机视觉功能。客户将能够在数百万张面孔的集合上进行实时人脸搜索等。
(5)行业规模
近年来,中国计算机视觉市场规模持续增长。根据Frost & Sullivan、IDC的统计以及国海证券研究所的预测,2021年中国人工智能市场规模2,603亿元,占全球人工智能市场规模的23.9%,其中计算机视觉市场规模845亿元,占人工智能市场规模的32.5%。预计到2025年,中国人工智能市场规模10,457亿元,占全球人工智能市场规模的20.9%,年增长率从2018年的58.0%逐步降至2025年的40.0%;其中计算机视觉市场规模2,623亿元,占人工智能市场规模的25.1%,年增长率从2018年的105.3%逐步降至2025年的27.6%。
图表4 2018-2025年人工智能及计算机视觉市场规模
信息来源:Frost & Sullivan、IDC、国海证券研究所,融中研究整理
(6)竞争格局
我国计算机视觉行业市场集中度较高,头部企业突出,已逐渐占据主要市场份额。根据国际数据公司(IDC)发布的《中国人工智能软件2022年市场份额》,商汤科技以23.1%的市场份额位居第一,其后依次为海康威视、创新奇智 、旷视科技、云从科技、智慧眼等。
图表5 国内计算机视觉应用市场主要厂商市场份额
信息来源:IDC、融中研究整理
(7)政策梳理
工信部等部门高度重视人工智能及相关产业的发展,先后出台多项政策,从提升产业链竞争力、发展计算机视觉底层技术、挖掘应用场景等方向促进我国计算机视觉产业的发展。
图表6 计算机视觉行业政策梳理
信息来源:融中研究整理
(8)行业未来发展趋势
(1)与通信技术的结合
网络的高带宽和低延迟特性有利于图像和视频数据的实时传输,这对于需要快速响应的计算机视觉应用至关重要。例如,在工业自动化中,5G可以确保机器视觉系统即时分析处理视频场景,实现实时控制和决策。5G网络还能够支持大量设备的连接,这对于部署大规模的监控摄像头和传感器网络非常有利。在智慧城市、交通监控等领域,计算机视觉可以利用这些连接进行大规模的数据采集和分析。5G网络与边缘计算(MEC)的结合可以在计算机视觉算法部署在云端实现算法的快速自优化和更新的同时,将数据处理和分析任务从云端转移到网络边缘,提供更近端的数据处理能力,降低延迟,提高响应速度。
(2)多模态信息融合
未来,计算机视觉技术将不仅仅依赖于图像信息。通过融合图像文本、音频等多种模态的数据,计算机将能够更全面地理解环境提高任务的准确性,与使用者的交互也将变得更加简单。
(3)无监督和自监督学习
传统的计算机视觉任务通常需要大量人工标记的数据。为了减少对人工的依赖,无监督和自监督学习的方法开始受到重视。这些方法可以利用大量的未标记数据或者通过自我监督学习来提升模型的性能。
(4)数据监管和隐私保护
由于计算机视觉技术会运用到大量的影像数据,包括静态及动态视频等,目前各国对于这些影像数据的监管和隐私保护依旧还是空缺。随着计算机视觉技术的不断推动,大量影像的数据保护也将成为大家所关注的问题,在技术快速发展的同时如何对这些数据进行更好的保护,以及影像的版权问题等,在未来都需要一一解决。
产业链分析计算机视觉产业链的上游主要提供功能所需的各种软硬件,包括工业相机、光学镜头、光源设备、图像采集与处理软件与其他部件等;中游将上游的核心部件集成为各种视觉应用系统,如定位系统、测量系统、识别系统、检测系统等,能够实现图像采集、处理和通信等功能,具有灵活配置、多功能模块化和高可靠性等特点;下游则是将视觉应用系统应用到各个终端行业中,提供相关的服务和解决方案,应用领域众多,包括3C电子、汽车、半导体等。
图表7 计算机视觉产业链
信息来源:融中研究整理
企业分析(1)安防领域
……(全篇内容阅读原文获取)
(2)工业领域
……(全篇内容阅读原文获取)
(3)消费领域
……(全篇内容阅读原文获取)
(4)自动驾驶领域
……(全篇内容阅读原文获取)