卷向多模态,华为云盘古5.0凭啥出圈

TechForWhat 2024-06-22 19:45:27

作者 | 葛覃

编辑 | 阿文

大模型的主战场之一,卷向了多模态。

今年5月中旬,正如产业界所预料的那般,OpenAI和谷歌先后发布了大模型多模态更新。GPT-4o演示的AI语音交互接近真人,可以通过摄像头实现视觉识别,并且给出拟人化的反馈,甚至可以识别人脸的表情,辨认情绪。

谷歌基于Gemini多模态大模型打造了Project Astra人工智能助手,演示了识别地理位置,找到丢失的眼镜,检查代码等功能。

两家大厂的演示虽有惊喜,但却并不让人意外。因为在此之前,行业基本已经达成共识,仅靠大语言模型实现不了通用人工智能,多模态才是通向AGI(Artificial General Intelligence)的必经之路。

人类智能的显著特点,就是能够处理和整合来自不同感官的信息,形、声、闻、味、触,我们做决策行为时,不自觉间就考虑了多种信息。多模态能力使大模型能够模仿人类的认知模式,从而更接近人类智能的复杂性和灵活性,因此成为目前大模型发展的主要方向之一。

在华为开发者大会2024(HDC 2024)上,华为常务董事、华为云CEO张平安重磅发布了盘古大模型5.0,在全系列、多模态、强思维三个方面全新升级。其中在多模态方面,盘古5.0的多模态不仅包括文本、图片、视频,还支持雷达、红外、遥感等更多模态,盘古5.0誓要“解难题、做难事,重塑千行万业”,那这些多模态,能带来什么想象空间呢,盘古大模型又如何去破解最难的题?

盘古5.0的多模态:更多、更深

不同于OpenAI和谷歌主要将精力放在人工智能助手,华为云依旧瞄准了行业。正如张平安强调的,一直以来,华为云盘古大模型都坚定地聚焦行业,在解难题、做难事的道路上不断攻坚克难。

不同的出发点,决定了不同的动作。面向消费者的人工智能助手,是一个相对通用的场景,而在专业知识较强的领域,越是需要多模态的应用场景,反而越难落地。就像一个小学生可以轻易完成父母交代的任务,一个非医学专业的大学生无法看懂一张病理照片。

盘古大模型5.0要深入到行业,除了额外支持雷达、红外、遥感等多模态外,也需要让这些多模态能力满足不同行业的专业要求,具体来看,盘古大模型5.0能够更好更精准地理解物理世界,在图片和视频识别方面,能够支持在10K超高分辨率的图片中准确理解微小的细节内容。

这足以用于一些人眼所不能识别,或者需要专家经验才能实现的场景,比如通过卫星图片找到细微的地表变化,或者通过病理照片找到想要的病菌的数量级。

而在生成方面,盘古大模型5.0采用业界首创的STCG(Spatio Temporal Controllable Generation,可控时空生成)技术,聚焦自动驾驶、工业制造、建筑等多个行业场景,可生成更加符合物理规律的多模态内容。

以自动驾驶为例,自动驾驶最难的是各种长尾难例场景(Corner Case),过去是通过先建模后渲染的方式构造仿真数据,成本高昂,精度误差大,无法支持端到端仿真,用AI生成场景数据用于训练成为解决方案。

但是,多模态大模型生成的视频,往往在生成内容的真实性和物理规律的合理性上存在问题,例如空间多视角相机、连续时间下生成的逻辑一致性。如果没有处理好,生成的汽车将发生形变,或是因为没有很好地理解物理规律而导致生成的两辆车融合到一起。

盘古多模态大模型通过3D CGC(3D controllable generation content),可以很好地理解物理规律,生成更加真实的训练视频,以此最大限度地减少仿真与现实之间的差距,让自动驾驶模型学习到更多的人类驾驶规律,更好地应对复杂的行车环境,帮助解决自动驾驶数据集泛化生成、难例生成两大难题,最终提高自动驾驶模型训练效率。

此外,红外、雷达、遥感等技术,在众多行业应用广泛,也为大模型深入行业带来了更大的想象空间。例如,红外用于电力设备的在线检测,监测石油化工领域的高温高压设备,工业制造领域的电子组件热性能分析等;雷达可预测气象变化,以及辅助自动驾驶等;遥感的应用也十分普遍,如灾害管理、地质和采矿、搜索和救援行动等。

于产业实践的角度,多模态的能力本身就在提升安全性、效率和质量等方面发挥着重要作用,可以料想的是,华为云盘古大模型增强的多模态能力,将继续拓宽AI的认知边界,能力边界。

大模型解难题,还需要什么

解决行业难题通常需要一个系统化的方法和多方面的能力,在大模型层,仅有多模态显然不够,盘古大模型的另外两大升级,强思维和全系列,让盘古在增强五感的同时,也大大提升大脑的能力,以及对不同场景的适配性。

强思维,指的是复杂逻辑推理,盘古大模型5.0将思维链技术与策略搜索深度结合,极大地提升了数学能力、复杂任务规划能力以及工具调用能力。

每个行业甚至每个细分场景,都凝聚了一套行之有效的操作流程,例如IT行业的SOP(Standard Operating Procedure,即标准作业程序),对应着各种状况的解决方案,大模型解题也是如此,特别是严谨的数理领域,在遇到某个问题时,大模型要思考并找到最佳的处理方法,然后将方法拆解成执行步骤,再去调用相应的工具完成。

全系列,盘古大模型5.0包含不同参数规格的模型,以适配不同的业务场景。十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用;百亿级参数的Pangu P系列,适用于低时延、高效率的推理场景;千亿级参数的Pangu U系列适用于处理复杂任务;万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。

企业的业务场景需求天然分层,有些业务要求极致的效果,有些业务要求性价比,考虑到效果和成本,一个模型打天下并不现实,盘古大模型5.0针对不同场景做优化,让企业可以平衡技术投入的ROI。

如此,华为云盘古大模型的三大升级,都可以收敛到解难题做难事的核心,多模态信息输入和输出,建立深层次的联系和协同效应,兼顾不同场景的投入产出,同时与每个行业特有的需求紧密联系起来,盘古大模型5.0,更能打开AI产业的天花板。

千行万业智能生产力再提速

在过去的一年中,盘古大模型已在30多个行业、400多个场景中落地,在政务、金融、制造、医药研发、煤矿、钢铁、铁路、自动驾驶、工业设计、建筑设计、气象等领域发挥着巨大价值,重塑千行万业。

以高铁巡检场景为例,动车巡检需要人工来实施,涉及众多检查项,工作量巨大,故障形态复杂,识别难度高,高铁场景故障样本稀缺,导致开发成本高。

这些问题不是一个大模型拿来就可以解决,即便通过数据训练和调优,如果大模型厂商不理解业务场景,或者不具解决复杂问题的综合能力,那么,大模型对于高铁故障检测的价值就不大。

知其然,也要知其所以然。在高铁巡检等场景,华为盘古大模型5.0既要做到知道问题所在,也要知晓如何解决问题。

一方面,华为云盘古铁路大模型通过三十亿图像预训练,盘古CV大模型结合行业know-how更能做到万物理解,开箱精调准确率即可达到90%以上,高于行业平均水平10个百分点。

另一方面,华为云大模型多模态融合诊断能力,是国内首创高精度故障检测技术,能对采集到的二维图片、三维点云、激光光谱等多模态数据,采用基于空间特征的匹配定位算法、二/三维融合深度学习算法、关键部件尺寸测量算法诊断,故障识别准确率可达到98%以上。

对于样本数据缺少的问题,华为云与北铁所采用了“高铁故障数据生成算法”,生成高铁场景罕见故障样本是,生成的数据再反哺于大模型,故障识别准确率可进行一步提高到99%以上。

对于类似的行业难题,华为云都有了解法。在钢铁领域,以上海宝武钢铁热轧生产线为例,每次调整生产钢板的种类和尺寸,都需要工程师重新调整7道精轧机组的300多个参数,需要耗费约5天的时间。

盘古大模型能够对最优参数进行预测,显著降低热轧生产线调优时间,并提高预测精度和钢板成材率。目前盘古大模型目前已在宝钢1880热轧生产线上线,预测精度提高5%以上,钢板成材率提升0.5%,预计每年可以多产钢板2万余吨,年收益达9000余万元。

此外,盘古大模型还应用于高炉场景,对炉温、铁水温度、硅含量等炉况进行仿真,从而辅助高炉精准控制,充分利用每一分能源,降低能源成本。

在具身智能领域,盘古大模型能够让机器人完成10步以上的复杂任务规划,并且在任务执行中实现多场景泛化和多任务处理。同时盘古大模型还能生成机器人需要的训练视频,让机器人更快地学习各种复杂场景。

大模型背后的全栈AI云底座

如前所述,所有行业难题的解决,都不是单一工具的能力,对于华为云而言,盘古大模型在前,云底座在后,通过AI的全栈系统性创新,打造了AI Native的云,从而服务所有大模型客户。

华为云CTO张宇昕表示,通过全栈系统性创新,能够让大模型的数据准备、训练、推理、应用实现全流程的高效率和高性能。华为云的全栈系统性创新覆盖了数据中心、云平台架构和基础设施服务,为AI开发提供AI Native的基础设施。

从最底层的算力层面看,在国内受到算力封锁的大背景下,华为云昇腾AI云服务给了世界第二种选择。

华为云贵州、内蒙古和安徽三大核心枢纽,构建了算力一张网,以此满足全国的算力需求,很大程度缓解了企业的算力焦虑。同时,昇腾AI云可以做到40天万亿参数模型训练无中断,远超业界的2.8天。集群故障恢复速度只有10分钟,远低于业界的60分钟。

据悉,昇腾AI云服务上线以来已陆续服务超过600家企业客户,全面适配行业主流的100多个大模型,以云服务的方式协助客户开发,训练,托管和应用模型,打造百模千态的黑土地。

本次大会上,华为云宣布了下一代的云基础设施CloudMatrix,将传统的以CPU为中心的主从架构,演进为多元算力对等全互联架构;并通过高速互联网络协议,将CPU、NPU、GPU 等算力资源全部互联和池化,从而把AI算力从单体算力演进到矩阵算力。

此外,针对云平台在大模型的训练和使用中存在的“内存墙”问题,华为云正式发布EMS弹性内存存储服务,基于Memory Pooling专利技术,通过显存扩展、算力卸载、以存代算等三大手段来打破内存墙。

从AI基础设施、AI算力到AI开发平台等的全栈自主创新,从盘古大模型从3.0到5.0的跃迁,包括大模型在内的全栈能力,正进一步外化成华为“解难题做难事”的依托。

从行业中来,到行业中去,技术最终要为业务服务。盘古大模型5.0最大的升级,或许不在于技术本身,而是融会贯通新技术、新场景和新需求,真正为千行万业塑造智能生产力。

0 阅读:21

TechForWhat

简介:数字时代,技术当立。关注行业数字化转型实践与案例。