商汤大模型的进化逻辑:认知领先与能力领先带来的复利效应

砺石商业评论 2023-07-27 09:31:57

导语:一方面是作为AI产业先行者形成的认知领先,另一方面是在算力、算法与数据等领域长期积累形成的能力领先,以及在产业应用端的落地经验,将支撑商汤科技未来在大模型领域的持续进化。

路言| 作者 砺石商业评论 | 出品

1

进化的商汤大模型

笔者在长期的商业研究过程中发现,企业竞争不是比拼谁起步更早,而是比拼谁能走得更久、更远。

而要想走得久远,最核心的根源便是企业的进化能力,包括战略、组织、品牌与产品等各个领域的进化。其中,产品进化最为关键,尤其在一些产业变化迅速的新兴领域。

大模型便是这样的一个典型领域。

随着ChatGPT走红带来的大模型热潮,短短数个月内,国内便有近百家冠以“大模型”之名的企业出现。好的影响是,这股强大的力量将大大利于中国大模型产业的加速发展,但不好的影响是,这些企业中的大多数最终都无法逃脱被淘汰出局的宿命。接下来,产业内将面临一场空前激烈的竞争,谁的产品进化更快,拥有更好的用户体验,谁才有可能“剩者为王”。

从目前来看,兼具实力与灵活性的商汤科技表现出了最强的进化能力。就在前不久的2023世界人工智能大会(WAIC)上,商汤科技召开了“大爱无疆·日日新”人工智能论坛,在论坛上重磅推出了“商汤日日新SenseNova”大模型体系的全面升级,以及该体系下的一系列产品更新和落地成果。

例如,商汤商量SenseChat 2.0版本是商汤大模型体系中最为引人瞩目的千亿级参数自然语言处理模型,其突破了大语言模型输入长度的限制,并推出了不同参数量级的模型版本,在知识信息准确性、逻辑判断能力、上下文理解能力、创作性等方面均有大幅提升,可完美适配移动端、云端等不同终端及场景的应用需求,部署成本也大大降低。目前,商汤商量SenseChat 2.0版本已落地服务于医疗、金融、移动终端、代码开发等领域。

商汤秒画SenseMirage 3.0是商汤的自研生成式大模型,参数从今年4月首次发布以来的10亿大幅提升至70亿量级,能够实现专业摄影级的图片细节刻画,有进阶需求的创作者,还可通过简单拖拽的方式快速完成模型微调,打造个人专属的生成式AI模型。

商汤如影SenseAvatar 2.0数字人生成平台相较1.0版本的语音和口型流畅度提升30%以上,能够实现4K高清视频效果,并带来AIGC生成形象及数字人歌唱功能。

商汤琼宇SenseSpace 2.0的空间重建效率提升20%,渲染性能提升50%,每100平方公里场景的建图时间仅需38小时即可完成(1200 TFLOPS/秒算力支持),可更高效地应用于城市级数字孪生场景。

商汤格物SenseThings 2.0对小物体的纹理及材质还原达到毫米级精细度,并突破对高反光和镜面物体的采集难题,这个突破让“格物”能够精确还原物品的外观和特征,小到珠宝首饰、服饰、鞋包,大到家居装饰、文物展览、艺术展览等,都能提供精细化的复刻效果。

从上述变化来看,商汤日日新(SenseNova)大模型体系的此次进化绝非简单升级,而是在多维度实现了重大突破。

另外,值得一提的是,此次升级进化,距离“日日新”大模型4月10日的发布日期仅有3个月的时间,这与“日日新”寓意“模型迭代速度和处理问题的能力可以日日更新”高度匹配。

那么,商汤是如何在短短3个月时间,便实现了如此大的进化呢?

2

商汤凭什么?

笔者在对商汤科技这家企业进行详细研究后发现,其在大模型领域所取得的成绩绝非偶然,也非一蹴而就。而是受益其在人工智能领域长期深耕而实现的能力领先与认知领先。

众所周知,算力、算法与数据是人工智能领域的三个核心要素。商汤科技则凭借长期投入,在这三个领域都实现了深厚积累。公开数据显示,截至2022年末,商汤研发队伍高达3466人,占员工总数近70%,全年研发支出接近40亿元。

首先在算法方面,商汤从2016年便开始在计算机视觉领域深耕,2017年发力决策智能,2019年涉足NLP语言类项目,在这个过程中积累了人工智能各个细分领域的算法,为大模型的研发打下了很好的算法基础。并且在2019年还发布了10亿参数的视觉大模型,到2022年参数升级到320亿,为全球之最。

在算力方面,从2020年开始,商汤便在上海临港建设了人工智能的算力中心AIDC。这个面积足足有20个足球场大的智算中心,拥有5000个服务器机柜和27000张GPU,规模远超业界广为流传的“万张GPU的大模型入场券”。

算力的优势除了体现在GPU卡的数量,还体现在多卡并行下的真实有效利用率。由于在大模型训练时需要大量的GPU卡,当越来越多的卡连在一起,卡和卡之间的通信、网络消耗就会越多,相应能够真正发挥的有效算力就越少。

例如,行业公认1000块连在一起的卡往往只能发挥60%的算力,剩余的40%在链接过程中就被损耗掉了。但商汤却可以把千卡能效做到90%,耗损控制在10%,这也创造了行业天花板。

在数据方面,除了通用数据与专用数据的积累,商汤科技在整合、处理与使用数据等领域也具有丰富的经验。

在算力、数据与算法三个核心要素上的积累,让商汤科技具备了在大模型领域持续进化的基础能力。而在这些基础能力之外,商汤科技还拥有另外一个更为重要,但较易被行业忽略的软实力,就是对AI产业的深刻理解与前瞻判断。

熟悉人工智能领域的产业人士,多熟知商汤人工智能算力中心5000P的强大算力,但较为忽视它背后的认知价值。从某种意义上讲,5000P的总算力并非独一无二,国内具备5000P规模的智算中心也还有数家,但它们大部分都是化整为零、分散布置,由一个个200P、300P的节点组成。

在传统的互联网应用中,这种分散布置并无大碍。但在AI大模型训练时,这些算力就必须集中在一个物理点,否则网络就没法支撑它去做同一个任务。商汤之所以在两三年前,便将5000P算力放在一起,与长期深耕人工智能产业所形成的差异化认知密不可分。目前,商汤的AI大装置已能够以最大4000卡规模集群进行单任务训练,并可做到七天以上不间断地稳定训练。

另外,在2021年中推出“AI大装置SenseCore”时,为了解决AI的长尾问题,商汤果断选择了用“超大算力+大参数模型”来实现AI具备更多通用能力的思路,这在当时是极为前瞻的思路。2022年底,ChatGPT的火爆,最终印证了商汤这种思路的前瞻性。

再以千卡集群90%的利用率为例,其主要得益于商汤科技超前预判市场需求,提前找到一批做高性能计算优化以及网络调试的细分人才,然后投入大量的时间与资源、一遍遍地调试,一点点积蓄优势,最终提升了整体利用率。

事实上,不管是大规模布局算力还是在细微处提升多卡利用率,这些事情并不复杂,谁坚持到最后就能形成难以复制的高核心能力。但关键难点在于,是否能在关键时点确定正确方向。

商汤科技的这种认知优势一方面得益于创始团队行业领先的专业基因,另外一方面则是源于长期实践过程中的积累。在这个过程中,其一直处在中国人工智能产业的最前沿,深入芯片、服务器、基础软件、工具软件、算法生产到应用各环节,形成了对整个AI全流程的理解力,并沉淀了大量的专业认知与工具。

前期正确预判往往要比后期行动更有价值。正是在上述认知领域的领先,最终带来了商汤科技在能力上的领先,进而带来在大模型产品上的更优体验与更快进化。

3

产业是大模型的最终归宿

熟悉大模型领域的读者会敏锐地注意到,最近一段时间中国的大模型产业正在发生着一个重要变化,就是越来越多的企业开始在大模型前面冠上“产业”二字。

在此背后,源于公众对大模型的研究越来越多,也越来越意识到通用大模型所采用的通用信息存在一些错误、谣言与偏见,且专业知识与行业数据积累不足,导致该类模型的数据“噪音”过大,行业针对性与精准度不足,无法创造出深层次的价值。

在产业场景中,专业服务要求高、容错性低,需要能够在实际场景中真正解决具体的问题。因此,企业使用的大模型必须可信、可用、可控,而且最好是经过反复与充分测试。

而商汤科技由于之前在人工智能领域产业的探索,其深知产业才是大模型的最终归宿,“写写诗,聊聊天”并不能解决实际问题。所以在大模型领域,商汤一开始便建立了根深蒂固的产业思维。

在2023世界人工智能大会论坛现场,商汤科技CEO徐立便通过简单地鼠标拖动,将商汤大模型在产业场景中的应用进行了直观展现,引得观众一片赞叹。在徐立的现场“炫技”背后,是商汤领先的行业理解力与场景落地能力。如今,这些能力正通过商汤大模型融合渗透到金融、医疗、电商、移动终端与产业园区等各个产业赛道。

例如,在金融领域,商汤如影数字人可以助力金融机构智能客服、智慧营销等工作,并通过大语言模型能力实现投研分析、撰写等新功能。

在数字内容领域,商汤数字人与多个短视频、直播头部平台达成战略合作,共建“云+AIGC+短视频直播”生态。商汤科技数字文娱事业部总经理栾青直言,AIGC让数字人进入了一个“真正可用的阶段”。

目前,商汤的AI数字人已支持构建数字人讲解员、数字人主播、数字人医生、数字人老师等,广泛部署于购物中心、展馆、旅游景区、银行等行业。

在医疗场景,商汤打造的中文医疗语言大模型“大医”,可提供导诊、问诊、健康咨询、辅助决策等多场景会话服务,未来将支持医学图像、文本、结构化数据等多模态分析,并提升医疗语言理解和推理能力。

而在智能汽车领域,商汤大模型的加持更是全方位的:它们正按照由内到外、由浅到深的逻辑展开。例如,在座舱内,商汤通过视听多模态融合,全方位感知、标记用户偏好,提供更好的个性服务。拟人化交互的“车舱大脑”还能为用户带来集安全、娱乐、教育及效率于一体的智能座舱体验。

在车舱外,商汤与联合实验室首个提出了感知决策一体化的自动驾驶通用大模型UniAD,开创了以全局任务为目标的自动驾驶大模型架构,为自动驾驶技术与产业发展提出了新方向。同时,这个大模型也斩获了行业最佳论文奖。

而在更外围的智能交通领域,借助路侧视觉感知大模型,琼宇2.0以及格物2.0构建智能交通孪生与仿真,并利用商量2.0的感知推理和人机交互能力,商汤还打造出车路云协同的交通体系。

在商汤看来,自动驾驶人工智能系统的核心是决策与判断,而大模型经过反复训练学习可以无限接近正确决策。而在决策之外,语言大模型还可以输出中间的逻辑推理过程,这让未来自动驾驶系统有了可修复性。

上述各个产业的具体应用案例,充分展示了商汤大模型的技术领先性。不过大模型的对外赋能,除了技术领先带来的用户体验,还很重要的是要能够做到对外服务的成本领先。如果不能以较具竞争力的价格提供服务,也很难获得客户的信赖。

商汤科技联合创始人,大装置事业部负责人杨帆预测,未来国内平台型AI公司或只能存活3-5家,成本控制能力是决胜的关键要素之一。而商汤科技前瞻布局的AI基础设施“商汤AI大装置SenseCore”,实现了算法、算力与平台的打通,以及软硬件一体化协同的AI系统工程能力,这为商汤科技低成本,高质量的行业赋能提供了保障,有望让商汤科技成为大模型领域最具竞争力的角逐者之一。

4

结语

在2023世界人工智能大会上,徐立表示,商汤科技将“通过‘大模型+大装置’持续推动AI基础设施能力的跃进提升,不仅打造通用能力更加强大的基础模型,也进一步高效融合不同垂直领域的专业知识,构建更懂行业、更具专长的专业大模型,从根本上降低大模型的下游应用成本和门槛,让大模型的产业价值在千行百业中绽放。”

简言之,“更懂行业的大模型、更低的成本与门槛、更广泛的产业赋能”,是徐立为商汤大模型中短期制定的务实方向。随着产业的变迁,推动AGI(通用人工智能)时代的到来则是长期远景。

一方面是长期深耕AI产业形成的认知领先,另一方面是在算力、算法与数据等领域长期积累形成的能力领先,二者将支撑商汤科技未来在大模型领域的持续进化。而一个能够持续进化的大模型,将是助力商汤科技实现中短期战略方向的最大底气,也是支撑其实现未来AGI时代长期远景的重要前提。

1 阅读:81

砺石商业评论

简介:在这里,读懂商业