商汤CEO徐立:算力、模型与应用“三位一体”,催生AI2.0的超级时刻|2024T-EDGE

钛媒体APP 2024-12-19 09:11:10

12月6日-7日,2024T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办,以“ALL-inonGlobalization,ALL-inonAI”为主题,汇聚全球科技和商业领导者,共同探讨人工智能对全球各行业的巨大影响,以及企业全球化增长新格局新趋势。作为钛媒体集团每年年终举办的科技和财经领域的顶级盛会,T-EDGE一直代表了钛媒体在科技与经济前瞻性,以及推动国际创新交流上的高质量追求。

12月7日,T-EDGE全球AI论坛:All-inOnAI会议上,商汤科技董事长&CEO徐立博士以“AI2.0的思考与挑战”主题,围绕AI大模型发展背后的算力、模型和应用“三位一体”等话题展开深入演讲。

AI的每一次突破,真正能够改变行业的,总是伴随着“超级时刻”的出现。徐立以今年诺贝尔奖这一超级时刻为例,一方面人工智能作为工具助力化学领域实现突破;另一方面,物理学作为工具反向推动了AI技术的发展。他指出,学科作为工具与目标同时被验证的现象通常需要长时间积累,而这一现象在同一年出现,反映了人工智能加速学科交叉迭代的强大力量,也证明了AI技术发展速度的迅猛。

AI2.0的下一阶段怎么走?徐立认为,“我们正加速构建一个全新产业,输入能源,输出数字智能。”今年尤其是下半年,全球发生了诸多与“AI能源”相关的巨大投入,无论是OpenAI、马斯克的xAI、或是谷歌、微软、甲骨文等全球领先科技企业,均在算力板块进行快速且重量级的布局。

徐立举例称,甚至是以善于从第一性原理出发降本增效而闻名的马斯克为例,他的公司特斯拉在今年10月发布的三季报显示,GPU数量一年内增长了9倍,预计年底将达到9万块H100。而近期更是宣布计划将Colossus超算扩大十倍,集成超100万块GPU。

这一现象背后的核心原因,就在于尺度定律(ScalingLaws)被发现并且连续在大语言模型、跨模态任务以及慢思考推理中持续得到验证,成为AI2.0的理论基石。

“不管哪个维度的‘尺度定律’,计算资源的投入都是更大的规模。”在徐立看来,AI2.0背后的关键,还是在于如何进行资源的衡量。通过对LeNet-5、AlexNet和GPT-4三代经典模型的数据对比,呈现出AI发展过程中成本结构的巨大变化。从参数数量、连接数量到训练时间,GPT-4的资源需求已达到数千倍至百万倍的增长。

“1.0和2.0最大的差别不在于专用或通用,而差别在于成本结构形成非常大的变化。”假设需要10万PFlops(每秒所执行的浮点运算次数)来做大模型,也就是要每年花费120亿美金构建基础设施完成任务,这是一个范式变化。

在这样的背景下,徐立强调,这不仅是技术优化的问题,更是新基础设施建设的时代命题。未来十年,除了构造高阶思维链数据,实现真正模型的差异化外,更重要的在于如何进一步优化算力成本、形成行业核心壁垒,这将决定AI的普及速度和商业化潜力。

相较诸多新创企业,AI1.0时代十年的摸爬滚打,让商汤更加清晰地认知到“可持续”的重要性,在面对AI2.0的快速变化中更加“老练”。徐立表示,近期公司确立了“大装置-大模型-应用”的三位一体战略,助力于解决训练和推理成本大幅下降、如何用好模型,从而指导下一个阶段的算力发展,赋能AGI的长远未来。

截至目前,商汤AI大装置SenseCore拥有超过5.4万块GPU,总算力规模高达20000petaFLOPS(每秒2000亿亿次浮点运算),能够支撑超过20个千亿超大模型同时训练,并支持万亿参数大模型的全生命周期生成。去年,商汤成为中国第三大智算服务商,与腾讯、字节、阿里、百度一同提供AI智算服务。

“AI算力本身不止是芯片。事实上,芯片的核心是做软件,算力的关键是做模型。如果不了解模型,光讲底层架构,实际上非常难。”徐立举例称,新的MoE(混合专家)架构模型的推理效率有差异化能力,如何通过应用驱动模型,以模型带动算力的优化,并最终提升算力资源的使用效率,这种“三位一体”是商汤科技在做算力、模型、应用层面的思考。面向AI2.0时代,商汤致力于成为最懂算力的大模型服务商,和最懂大模型的算力服务商。

徐立指出,2025年将成为“数据中心之年”。AI基础设施建设将以更高效、更普惠的方式推动社会进步。通过不断突破技术与认知的边界,AI将助力人类探索更多未知的可能性。

0 阅读:0