以多模态行业通用大模型赋能千行百业。
进入2024年以来,多模态大模型与垂直大模型逐渐成为未来发展的两大方向,且垂直大模型往往也同时具有多模态能力。
一般来说,不同模态的基础模型都是单独预训练的,海量的单模态数据并未建立与之匹配的多模态数据。那么,如何将原本互相独立的大模型连接以实现协同推理,大模型对单模态数据token化之后的学习如何迁移,如何借助多模态大模型解决更多行业问题?
简而言之,那就是语言能力如何处理物理世界中的非语言问题?这个反问,正是大模型从"单模态"向"多模态"发展的推动主因。
当前,多模态大模型两种主流技术路线——其一是原生多模态;其二是将视觉模块以解码器模型架构作为语言模块额外输入。从解决问题与落地成本的角度去看,前者理论上解决能力更强但需要更高的成本;而后者更容易在小参数的前提下解决更多细分场景问题,更有利于应用在各行业直接处理物理任务。
技术路线的演化产业界同样有所反映。西南地区人工智能链主企业考拉悠然近日就宣布完成了1亿元B轮融资,并推出悠然远智全模态AI应用平台。
考拉悠然,正在探索什么?从多模态大模型到最新的全模态AI应用平台,考拉悠然的动作对行业意味着什么?作为一家已形成了工具链平台、大模型能力、行业应用与服务三位一体完整体系的AI企业,考拉悠然是如何探索行业落地新方向的?
考拉悠然探索的,正是人工智能技术如何与具体行业深度融合,如何用更高的效率去解决行业问题。
首先,不同行业的业务逻辑、数据结构和应用场景差异极大,如何将通用的大模型技术定制化地应用于各行各业,实现技术与业务的无缝对接,是当前面临的一大挑战。“百模大战”之所以打得纷纷扰扰,或者说产业化之路不畅,就在于找到成熟的商业模式比训练出大模型更难。
其次,打破堵点,正需要大模型从单一的文字处理、文字生成,走向多模态的解决能力。因为现实场景中的很多问题,不是文字,而是图像、视频、震动、声音等等。考拉悠然自主研发的全球首款多模态AI操作系统——码极客,就是基于这种对多模态解决能力的需求以及团队在视觉智能、跨媒体智能、大数据智能等AI核心领域近20年科研积累,原创1000+种多模态AI算法,从而才能在应对各类场景多模态需求时游刃有余。
据了解,考拉悠然以码极客为基础,生成了工业检测、安全生产和城市治理等多类行业大模型并实现落地应用。以工业检测为例,考拉悠然推出的“高精度、高速度、高准度”的“三高”智能检测平台及设备,检测精度可达到0.2um,已广泛应用到国内屏幕显示及半导体芯片制造巨头企业,助力客户生产效率提升10%以上。
第三,大模型产业化的进阶之路,必然需要深入到行业应用中去。
早在2018年,在大模型以及多模态大模型技术尚不成熟,甚至不为人知的时代,考拉悠然就意识到,人工智能将在彼时机器视觉等主流技术基础上,向多模态智能交互技术深度发展。
大模型产业化之路,有一个角色其实是被行业所忽视的,那就是系统集成商。据了解,全国注册有资质的系统集成商就有2万余家,在大模型赋能各类型传统企业上,系统集成商是AI企业必须与之合作的伙伴。码极客,其实就相当于为系统集成商们提供一个底层系统,方便集成商结合自己多年的行业经验开发针对性的应用。
考拉悠然联合创始人、CEO沈复民就曾表示,“考拉悠然是一个技术型团队,我们所擅长的就是底层技术,让更多系统集成商轻松打造自己的定制化人工智能产品。”
进入大模型时代之后,数据和算法的价值进一步放大。系统集成商和客户那里有很多没有被很好利用的数据,但一些大模型企业却没有提供能够利用好这些行业多模态数据的算法,百模大战之下,很多大模型依然在做聊天工具而不是产业赋能工具。
大模型的产业化之路,究竟堵在了哪里?如何打通感知、认知乃至决策的交互屏障,如何在语音、图像、文本、视频等之外,促进更多模态关联,实现结构化和非结构化数据的快速分析与决策?
全模态其实就是基于这些考量,对多模态的一种持续探索。
考拉悠然也将全模态能力分为全模态交互、全终端交互、全信息交互、全场景交互四大基础能力,并基于这些基础能力进行更加专业的行业应用生成。基于这四大基础能力,考拉悠然的“悠然远智全模态AI应用平台”就具有视频理解、全模态内容搜索、知识问答、BI数据分析、结构化文档与数据生成、多模态趋势预测等更加全面的能力,从而为更多行业提供AI赋能。
从归国创业到产业龙头:考拉悠然点亮中西部AI之光据了解,考拉悠然由欧洲科学院院士、ACM/IEEE/OSA Fellow 申恒涛教授领衔20余位海外名校归国博士,在2017年创立。从创立之初,考拉悠然就瞄准人工智能经济,2018年推出“考拉大脑”AI平台,将计算机视觉识别和语音交互技术落地双流机场以及国内部分园区,甚至走出国门在阿联酋机场应用。考拉悠然也是在早期视觉、语音等技术的基础上,逐渐发展了多模态大模型技术。
作为成都大模型产业的链主企业,考拉悠然不仅率先在中西部推出首个多模态产业通用大模型——悠然大模型,更以其强大的资源配置能力和协同创新组织能力,为西部地区的大模型发展铺设了坚实的基石。
早在2019年,考拉悠然就与四川通信设计签订战略合作协议,在人工智能、云计算、大数据、物联网、移动互联网等领域展开深度合作。当年,考拉悠然还在遂宁成立人工智能中心,打造川中AI示范基地,辐射带动周边乃至成渝经济区人工智能发展。
考拉悠然立足四川,对于当地在城市治理、轨道交通等建设上的很多G端需求,一直在贡献自己的力量。此外,在全国范围内,考拉悠然也为高端屏显、烟草生产、半导体等众多产业提供相关解决方案,据了解,考拉悠然已面向行业应用开发出悠然半导体大模型、悠然烟草大模型、悠然高空视频大模型、悠然城市治理大模型等多种模型。
比如,烟草行业因为制造设备复杂,流程繁多,一些车间新老设备不兼容,多套设备的信息化系统往往出现孤岛化现象,数据难以整合。在过程管控方面,也主要依赖人工感知,连续性生产产线上的断点和堵点难以及时发现。此外,行业内部沉睡的数据价值尚未得到充分挖掘,缺乏有效的复盘手段,导致整体效率低下,人力管理和维护成本较高等问题。
而考拉悠然的烟草大模型方案,基于多模态大模型技术,从人员管理、作业管控、隐患治理、安全监管、产业联动等多方入手,支持200+的算法,可根据实际检测需求,灵活适配算法进行检测,部署方式非常灵活,据了解该方案已经在四川中烟等烟草企业落地,减少人员成本50%以上,实现异常事件全链条数据100%自动存证。
人工智能是今年四川省1号创新工程,四川省以及成都市也极为重视人工智能产业的发展。今年5月20日召开的成都市新型工业化推进大会,更是明确提出到2026年人工智能核心产业规模达到1700亿元。
作为成都市人工智能产业链链主企业、考拉悠然以码极客为底座,联合成都本地人工智能产业链上下游生态,也在将AI模型和算法技术高效率应用到众多行业场景中。
比如,针对大型制造生产企业的安全管控需求,推出安全生产大模型。针对电力巡检、国土保护、河道治理、森林防火等业务场景,推出高空视频大模型。据了解,考拉悠然新研发的道路智慧化监管系统,正在推动过程中,后续将在四川高速公路上应用。
考拉悠然携手上下游企业,在基础层、技术层、应用层等多个维度展开深度合作,共同推动了成都人工智能产业链上下游的协同发展,显著提升了西南区域在人工智能方面的生产力和竞争力。
考拉悠然以多模态行业通用大模型赋能千行百业对于行业来说,人工智能就像蒸汽、电力、互联网一样,是产业变革的新能源。但蒸汽机的应用局限于工业生产环境,电力虽然进一步将能源供应扩展到了城市乡村的各个角落,但电力网络的覆盖仍然受到地理、界限的限制,直到互联网的出现才使得信息和知识作为新经济的“能源动力”跨越国界自由流动。
人工智能的发展和应用,同样经历了从局部到全局、从单一到多元的拓展过程,而且更进一步,渗透进制造业、服务业、医疗、教育、交通等千行百业。但人工智能不同于蒸汽、电力和互联网的是,一家电厂可以供给几乎所有行业,但大模型时代却不存在一家AI企业,能够开发出适合所有场景的通用大模型。当然这不是说通用大模型不重要,而是在解决问题层面,要能够将行业能力发挥出来。
什么样的大模型才能更好地解决问题,实现商业化落地,建立起自身的壁垒和门槛?
沈复民曾指出,考拉悠然的核心技术壁垒是“码极客”——OSMAGIC人工智能操作系统。该系统能够兼容各种各样的软硬件,在传统产业智能化改造的过程中,能够避免因升级而造成的大量设备浪费。此外,考拉悠然的产业大模型,还会针对行业特点,强化特定模型在某些领域的能力,更聚焦于行业关注的场景项目,比如悠然半导体大模型、悠然烟草大模型、悠然高空视频大模型等。
目前最强的开源大模型已经超过了4000亿参数(Meta于7月23日发布的Llama 3.1 405B),但仍未实现通用人工智能。但4000亿参数大模型的训练成本已经是全球除了少数巨头,其他企业难以承担的成本。从产业化的角度,这种千亿级参数通用大模型,会是少数大模型企业彰显技术实力的方向,但显然不是产业界大模型应用企业要走的方向。
对产业界来说,大模型未来的发展趋势是怎样的呢?
考拉悠然董事长申恒涛
考拉悠然董事长申恒涛在2024世界人工智能大会上就指出当前AI大模型发展有三个趋势:
一是大模型从“单模态”向“多模态”;
二是从“通用大模型”到“行业大模型”发展;
三是从人工到工具链,未来将自动生产越来越多的AI原生应用。
简而言之,就是企业级大模型应走垂直化、产业化、行业化的路线,从通用转向行业细分与定制化解决方案。在这一演进过程中,考拉悠然已经落地了不少案例。
比如,为半导体、屏幕企业提供包括LED支架检测设备、功率器件检测设备、屏显检测设备、玻璃检测、膜材检测等多个系列的智能化监测设备,一些产品更是打破了此前国外监测产品的垄断。
像一些屏幕大厂,生产制造中需要对大幅面玻璃进行切割,不管是用激光还是刀轮进行切割,切割过程中,都不免会产生裂纹。对于裂纹,生产线上会采用磨边的形式,将微小裂纹磨掉,但磨边时候可能磨多了、磨少了,也会产生其他瑕疵问题。
而考拉悠然的玻璃表面及边缘外观缺陷AOI设备,最高达0.16um的光学精度,具备高达65M像素的相机,结合多模态大模型的图像识别和分析能力,能够更高效地检测半导体产品的塌线、胶高、胶偏、划痕、裂纹、异物、色差等问题。
据了解,考拉悠然自主研发的国内首台玻璃基Micro LED晶圆量检测设备已于近日正式完成出货交付,该设备是提高Micro LED晶圆生产良率不可或缺的监测设备。该设备的成功研发并出货,也打破了国际垄断,为我国Micro LED产业提供了国产化解决方案。
再如铁路养路护路领域,传统的人工巡查,⽆法全天候监测识别,⽆法提前感知预警,⽆法⾃动取证固证。而考拉悠然为中国铁路成都局提供的全天候智能监测解决方案,运⽤视频AI智能分析和⼤模型技术,接⼊铁路沿线的中⾼空视频监控点位,并结合各类物联传感器,实现多源感知和主动识别各类违规闯⼊、异物覆盖、环境异常等安全隐患事件。
考拉悠然面向行业应用的工业检测大模型、烟草大模型、交通大模型、城市大模型,以其高度的定制化和专业性,为不同行业提供了精准高效的解决方案。在行业细分场景中寻找大模型赋能的切口,也已经是新一轮大模型投融资的重点。
大模型从最开始的聊天应用,到后来的RAG、Agent,再到多模态的发展趋势,意味着大模型技术从只能处理单一模态的数据,到能够主动执行部分任务,整合和处理多种模态的数据,再到能够对所有可感知信息进行跨模态交互和理解,这就为人工智能在更广泛场景中的应用提供了无限可能。
未来,多模态也将逐渐成为大模型行业的标配。产业界要想在多模态上提供与时俱进的AI解决方案,显然也需要AI企业主动出击,不能守株待兔“拿着锤子等钉子”,只有深入千行百业,去探寻和理解客户的细微差异需求,才能拿出客户亟需、有针对性的行业解决方案。