智东西
作者 | ZeR0
编辑 | 漠影
智东西4月25日报道,具身智能的关键卡点到底在哪?中国具身智能的机遇在哪?“打脸时刻”何时上演?近期部分投资人“批量退出”,是否暗示着行业正陷入泡沫危机?随着具身智能发展从实验研发转向产业落地阶段,一系列关键问题接踵而至。
在近期2025商汤技术交流日具身智能论坛上,由主持人量子位总编辑李根主持,来自具身智能产学界的嘉宾——上海交通大学副教授、上海人工智能研究院首席科学家闫维新,库帕思 CEO黄海清,松应科技创始人CEO聂凯旋,银河通用合伙人、大模型负责人张直政,商汤科技联合创始人、大装置事业群总裁杨帆,站在产业链视角,共同探讨了具身智能与AI基础设施如何协同创新,破题行业困境,实现正向可持续发展。
一、模型能力进展快、场景潜力待释放,具身智能机遇与挑战并存在大模型的加持下,具身智能突飞猛进,大小脑模型的突破、仿真系统的构建、场景应用潜力的挖掘,成为当前最为鲜明的行业趋势。
闫维新教授谈道,得益于深度模仿学习与强化学习的深度协同,具身智能的小脑进化迅速,机器人的直膝行走能力进步显著,在不同地形和摩擦系数的环境中,鲁棒性和泛化性均大幅增强。同时,在大脑方面的创新也在加速,随着百万真机数据集积累、以及“一脑多能、一脑多机”通用平台的出现,正推动具身智能在日常生活和工作场景中展现更多应用潜能。
张直政也认为,具身智能领域呈现出“科研-创新-应用“全链条蓬勃发展态势。在数据层面,仿真合成数据与真实采集数据积累均呈现爆发式增长态势;在架构层面,大小脑模型、分层端到端模型等创新理念不断涌现;叠加国家政策的有力支持,更让行业对具身智能的规模化商业应用充满信心,其商业化落地潜力非常值得大家期待。
尽管发展势头正盛,但具身智能仍处于技术探索期,面临数据、成本、能力等方面的诸多挑战。
在黄海清看来,各企业间的数据难以互通,数据构建成本居高不下,阻碍了模型的训练效率;同时,高昂的成本也限制了机器人的普及速度;此外,机器人在主动思考和复杂环境适应能力上与人类仍存较大差距,适用场景有限,亟待行业共同探讨、共同解决、共同推进。
物理AI仿真对促进具身智能模型的训练起着关键作用。聂凯旋将其比作连接AI与物理世界,以及教会AI理解物理世界的桥梁,让机器人可以自我进化,快速学习抓取、行走,甚至翻跟头、跳舞等技能。而一套完善的物理AI仿真系统,需要涵盖视觉、触觉、听觉、运动控制等各类组件,让机器人真正做到像人一样能够360度地感知物理世界。
二、发挥数据优势,是中国具身智能“弯道超车”的关键算法、算力、数据是人工智能的三要素,同时也是具身智能发展的重要基础设施。作为全球具身智能领域的“领跑者”,中国和美国在具身智能这一处于起步阶段的新兴前沿领域,存在哪些差距?
在算法层面,嘉宾一致认为中美差距并不大,基本可以达到旗鼓相当的状态。
张直政判断VLA将成为具身智能未来的核心技术路径。其高度泛化能力可实现从结构化场景应用到非结构化场景应用的进步;同时,提供了将泛化动作和通用感知相结合的全新技术范式,可大幅提升环境感知、任务规划推理和动作执行能力;并且,能够以更高的数据利用效率,端到端提升从感知到规划再到执行的整体性能。
在算力层面,闫维新教授坦言中美在训练算力和推理算力方面仍有差距,尤其和英伟达CUDA生态的差距更为显著,但随着国产算力加速创新,也在加快追赶步伐。
杨帆认为,尽管国产算力受上游产能制约存在客观差距,但可以通过模型结构与硬件的端到端联合优化来缩小差异,这也是DeepSeek实现了行业领先的推理性价比的关键所在。商汤大装置着力于系统软件层的优化创新,针对特定的应用场景进行端到端调优,为行业输出更具性价比的解决方案。
在数据层面,现场嘉宾均认同中国在物理场景和应用数据采集上具有全栈优势,样本丰富度高于美国,是中国具身智能弯道超车的关键。闫维新教授特别强调,中国在样本端的收集能力远超国外,尤其是最为稀缺的机器人应用场景数据,中国比美国有更好的机会和能力收集这样的数据。
尽管我国在数据体量上拥有显著优势,但数据难流通依然是行业发展的掣肘。尤其对于创业公司来说,语料数据高昂的成本是不可承受之痛,行业迫切需要解决语料数据获取难、获取贵、不共享的问题。
对此,黄海清提出了四项举措:牵头探讨语料数据的标准规划、探索生产伴随式的数据采集方式、研发自动化标注工具链平台、推进数据合成技术的应用,进而激活数据价值,推动具身智能产业更好的服务千行百业。
聂凯旋认为,中国作为制造业大国,拥有丰富的全产业链数据,结合物理AI仿真的快速创新,更可以加速技术的迭代和验证。
当前,商汤科技与松应科技已在数据仿真、研发管线、客户服务层面展开全面合作。商汤大装置面向具身智能的解决方案,能够端到端赋能技术研发,覆盖数据生产、工具支撑及模型研发全流程,为企业提供“开箱即用” 的研发工具链,致力于解决具身智能落地最后一公里难题。
发展历程,从AlphaGo战胜人类围棋冠军到ChatGPT实现流畅人机对话,这些 “打脸时刻”一次次颠覆了人们对人工智能的认知。在具身智能领域,同样令人期待的“打脸时刻”也成为嘉宾们热议的焦点。
张直政认为,具身智能的“打脸时刻”将在各个行业悄然降临。与场景相对单一的自动驾驶不同,具身智能应用场景丰富多样,它可先学习通用知识,再快速在特定场景中成为专家,以多层次、全方位的方式在不同领域实现突破。
闫维新教授以自己在冬奥会期间参与过的烹饪机器人项目为例,分享说餐厅中的人形机器人在无预设程序的情况下,能够自主完成复杂烹饪过程,从食材处理、火候把控到菜品烹制、摆盘,一气呵成,色香味形俱佳。这种自主完成复杂任务的能力,正是具身智能“打脸时刻”的生动体现。
黄海清提出了“打脸时刻”的两个标准。一方面,在商业超市、工厂等场景中,机器人若能以较低成本完成简单重复性任务,实现从50万开发成本到5~10万的突破,便是重要的“打脸时刻”。另一方面,当机器人具备与人类一样的共情能力,能在情感陪护、康养养老等场景中给予人们情感关怀时,也将是具身智能的又一次重大飞跃。
聂凯旋从技术供应商角度出发,认为在近10个大类、100个小类的具身智能应用场景中,每个子行业都有望诞生冠军企业。这些冠军企业不仅代表着技术领先,还能激活产业链,推动行业转型发展。当具身智能能够助力制造业、交通物流、康养医疗等传统行业效率大幅提高,推动GDP增长时,便是“打脸时刻”的到来。
杨帆心中期待的“打脸时刻”更为长远且具体。他希望看到机器人在完成复杂任务的同时,能与外界人类社会进行无约束的交互。比如,在主人提出需求后,机器人能独自前往办公室取回遗忘物品,在这过程中,不仅要完成识别、拿取物品的任务,还要应对复杂的外界环境,如与陌生人交流、防范意外情况等。
结语:“批量退出”不等于“泡沫”,克服质疑才能走向产业落地数据显示,截止3月26日,今年具身智能领域共发生投融资42次,已达到2024年全年的50%,热度持续攀升。然而,前不久创投圈一位知名投资人“批量退出具身智能”的言论,引发不小热议。“具身智能是否会是一场资本狂欢下的泡沫”的争论被摆上台面。
面对个别投资人对整个具身行业的公开质疑,张直政认为,行业内出现不同的讨论声音,反而说明人们对技术的想象力和它的边界之间产生了碰撞。消灭泡沫是科技创新的驱动力,创业者的使命就在于从宏观思考出发,结合微观的具体的产业应用需求,把对前沿技术的想象变成真正落地的产品。
闫维新教授也谈道,泡沫是远离了价值以外的内容,只要大方向正确,总能找到机器人能力上限和应用场景下限之间的交集。比如在危险替代领域,具身智能和非视距遥操作结合,未来三五年有望实现落地应用,要对行业发展有信心。
杨帆认为,投资人的公开质疑是行业的标志性事件,只有直面这些质疑,经历这些质疑,克服这些质疑,行业才能真正从实验探索阶段走向认真、严肃的产业落地阶段。
尽管面临数据壁垒、技术瓶颈与商业化的多重挑战,但大家的共识清晰可见——泡沫争议背后是产业突破的前奏,从烹饪机器人的自主操作到低成本工业场景的规模化落地,从情感交互的突破到跨行业效率的革命性提升,“打脸时刻”或许不会一蹴而就,却已在细分领域悄然酝酿。
正如论坛所探讨的,具身智能产业发展仍在早期阶段,需要产学研协同攻坚、开放共享基础设施、直面质疑并迭代价值,进而将这一赛道从资本的“想象力试验”转化为推动社会进步的“生产力引擎”。