具身智能的未来,是“能翻会跳”运动派?还是“灵活手巧”操作派?

ITBEAR科技资讯 2025-03-03 14:49:53

是突破物理极限的“运动大师”能主宰未来,还是深耕场景的“操作专家”更胜一筹?

2025年开年不久,机器人行业迎来多场“技术秀”:Figure发布具身大模型Helix,展示进工厂当起了物流工,多个人形机器人协同执行物流分拣;国内企业凭借“前空翻”、“功夫表演”等高难度动作吸睛网络。

一边是海外巨头重新定义操作边界,一边是国内厂商以极致运动能力博得眼球,这场关于“具身智能终极形态”的全球竞速,正将行业推向关键分水岭:究竟是突破物理极限的“运动大师”能主宰未来,还是深耕劳作场景的“操作专家”更胜一筹?

Figure进物流线分拣包裹

灵巧操作能力:具身智能皇冠上的明珠

星动STAR1基于端到端原生机器人大模型ERA-42按指令自主使用筷子将盘子中的饺子夹到煮锅里,成为“首个能熟练使用筷子的人形机器人”,展现了ERA-42协同五指灵巧手星动XHAND1后的卓越的灵巧操作能力和未来落地应用的空间。

从技术发展趋势来看,具身智能的终极目标是让机器人具备高度的智能,能够自主理解环境、规划任务并执行操作。因此,在稳定的全身运动控制能力基础之上,灵巧操作能力必然是具身智能皇冠上的明珠,这代表了机器人在感知、决策和控制等方面的最高水平,是实现复杂任务和广泛应用的关键。

从投资回报率角度看,“操作派”展现出了更清晰的商业化路径。以Figure的物流分拣场景为例,这意味着在制造业场景中可实现明确的ROI测算。

从全球范围来看,无论是Figure还是Physical Intelligence  (PI)等都是“操作派”,且在突破灵巧操作能力的背后都无一例外地采用了端到端的具身大模型,以实现机器人本体的自主搬运、抓取物品等操作任务。可见,端到端具身大模型强大的泛化能力、自适应性、精确的控制与规划能力是实现具身智能体灵巧操作能力的重要路径。

星动纪元:

国内唯一对标Figure端到端技术的具身智能企业

国内去年发布的ERA-42是唯一的端到端解决方案的原生机器人大模型,来自清华系具身智能创企星动纪元,初版技术架构发布于2024年6月。凑巧的是,和今年刚发布的Figure  Helix模型架构几乎一模一样。后期,星动纪元还将世界模型融入ERA-42,使其能预测未来行动轨迹,提升执行任务准确性和抗干扰性,增强商业化潜力。同时,采用强化学习技术,提升训练效率、降低成本并进一步增强泛化操作能力。

基于ERA-42模型能力,只需短时间收集少量数据,机器人即可学会各种灵巧操作新技能,机器人的落地应用场景扩展也将变得非常迅速。

Figure Helix与清华姚班团队

2024年6月发布在CoRL2024的端到端具身大模型HiRT架构高度相似

HiRT: Enhancing Robotic Control with Hierarchical Robot  Transformers于2024年6月发表在CoRL2024

论文地址:https://arxiv.org/pdf/2410.05273

端到端具身大模型ERA-42为产业应用按下加速键

从这次星动官方发布的最新具身操作能力视频中可以看到,在模拟的厨房场景内,经过2小时的训练学习,星动STAR1基于原生机器人大模型ERA-42,可按指令自主使用筷子将盘子中的饺子夹到煮锅里,成为首个能熟练使用筷子的人形机器人。同时,也展现了ERA-42协同自研五指灵巧手星动XHAND1后,卓越的灵巧操作能力和未来落地应用的空间。

星动STAR1用筷子精准夹取饺子

得益于ERA-42的多模态融合感知能力,星动STAR1能够灵巧地在厨房场景内完成各项任务。它融合了视觉、语言、触觉和身体姿态等多种模态信息,通过对环境的全方位感知,准确判断物体的位置、形状、状态以及自身的动作情况等。例如,在使用筷子夹饺子时,视觉感知帮助机器人定位饺子的位置和姿态,五指灵巧手触觉感知则让机器人能够感知筷子与饺子之间的接触力,从而精准地控制夹取力度,确保饺子不会被夹碎或滑落。

星动STAR1从蒸笼中拿取包子递给客人

从接收全模态数据到生成最终的动作输出,整个过程基于简洁的神经网络链路完成,无需人为设计特征、预编程或干预处理步骤。这种端到端的架构使得机器人能够实时适应不同任务和环境,快速做出决策并执行相应动作。比如,在打开蒸煮箱拿出包子递给客人的过程中,星动STAR1可以根据实时感知到的蒸煮箱的状态、包子的位置以及客人的位置等信息,自主规划动作路径,准确地完成取出包子并递送给客人的动作。

星动STAR1拿酒瓶倒酒进酒杯

星动纪元将世界模型融入原生机器人大模型中,使机器人具备了对物理世界的理解能力,能够对未来行动轨迹进行预测。在拧开红酒瓶盖并将红酒倒入红酒杯的任务中,星动STAR1可以预测瓶盖的拧开动作、红酒的流动轨迹等,从而提前调整动作策略,确保倒酒过程的顺利进行。

星动XHAND1—全直驱、12个主动自由度仿人五指灵巧手

ERA-42协同星动纪元自研全直驱、12个全主动自由度的仿人五指灵巧手星动XHAND1能够执行灵巧高精度任务。星动XHAND1采用纯电驱方式,且每个自由度都有对应的驱动源,能够实现全自主五指12个关节驱动,食指具备侧摆自由度,拇指具有大范围活动能力,能够实现多手指间的灵活协同动作,如拇指与食指的对指操作,从而轻松完成拧瓶盖、捏取小体积物品等精细化操作任务,复现人手的灵巧操作能力。星动XHAND1每个手指还配备一个高分辨率(>100点)触觉阵列传感器,提供精确的三维力触觉和温度信息,可以用于基于触觉反馈的操作。单手最大握力能达80N,负载可达25kg,单指指尖压力15N,因此,可实现单指指尖、指腹按压工具按钮(如:移液器、螺钉枪)等多样化灵巧操作。

星动STAR1通过星动XHAND1拇指与食指的对指操作捏取小体积物品

基于ERA-42无需预编程即可快速学习新技能的能力,星动STAR1能在 2  小时内用少量数据学会新任务。这得益于其强大的跨模态能力和神经网络的学习能力,能够通过对少量数据的学习,快速掌握新任务的动作模式和要求,并将其泛化到不同的场景和环境中。例如,通过学习一些基本的夹取和放置物体的动作数据,机器人就可以快速学会使用筷子夹饺子并放到煮锅里的动作。

基于原生机器人大模型和为 AI  定义的硬件平台协同迭代模式,这不仅使星动机器人在灵巧操作方面展现出显著优势,并具备极快的落地应用速度,其后续进展值得我们关注。

从“炫技”走向“实用”

尽管跳跃、空翻等高难度动作让机器人在视觉上具有冲击力,但具身智能的终极形态,必然是运动能力与操作能力的有机统一。但当前阶段的技术突破方向,明显向操作能力倾斜。这种选择背后存在深层逻辑:在工业4.0与人口老龄化的双重驱动下,真正具有商业爆发力的场景(如精密制造、医疗护理、家庭服务)都需要毫米级操作精度与动态环境适应性。

预计未来三年,行业将呈现“运动能力标准化,操作能力差异化”的格局。如同智能手机行业从比拼跑分转向聚焦影像能力,具身智能的竞争焦点也将转向:能否用筷子夹起豆腐而不碎?能否在晃动环境中稳定倒水?这些看似简单的操作挑战,实则是具身智能皇冠上的明珠。当技术突破积累到临界点时,我们将见证服务机器人渗透率从个位数向双位数的跃迁,开启真正的机器人大规模应用时代。

0 阅读:3
ITBEAR科技资讯

ITBEAR科技资讯

ITBear科技官方大鱼号,提供原创新鲜IT资讯。