从简单的独立行走到精准的前后空翻,从经过反复训练才能抓取物品到无须训练就能听从指令处理家务……人形机器人的“进化”速度令人惊讶。最近,硅谷机器人创新公司Figure AI的最新大模型Helix亮相,业内有观点认为,Helix的能力“前所未有”,让机器人能够像人一样思考与行动。Figure AI这次发布究竟有哪些重大突破?它会是现阶段人形机器人的主流发展方向吗?中外人形机器人具有哪些不同的发力方向?

Figure AI表示,如果机器人的能力没有质的飞跃,就无法进入家庭领域,而Helix模型能像人类一样推理。
据Figure AI介绍,Helix不仅实现了对整个机器人的上半身,包括手腕、躯干、头部和单个手指输出高速率连续控制,也可以在两台机器人上同时运行,使它们能够解决共享的长距离操作任务,操作它们从未见过的物品。
配备Helix的图形机器人只需根据自然语言提示,就能拾取几乎任何小型家用物品,包括它们从未见过的物品。
与之前的方法不同,Helix使用一组神经网络权重来学习所有行为——拾取和放置物品、使用抽屉和冰箱以及跨机器人交互——而无需针对具体任务进行微调。

Figure AI表示,Helix是首款能对整个人形机器人上半身(包括头部、躯干、手腕和手指)进行高频率、连续控制的视觉-语言-动作(VLA)模型。通过直接将视觉语言模型中捕获的丰富语义知识,直接转化为机器人动作,克服了人形机器人领域的多个长期挑战——至少不需要为机器人的每一个动作进行大量训练了。
为了解决视觉语言模型“通用、但不快速”,和机器人视觉运动策略“快速、但不通用”的矛盾,Figure通过建立一套互补的系统进行权衡。两套系统通过端到端训练以进行通信。
如下图所示,系统2是开源、开放权重的70亿参数量端侧互联网预训练视觉语言模型,用于理解场景和自然语言;系统1是一个8000万参数量的快速反应视觉运动策略,将系统2理解的语义转化为每秒200次的精确连续机器人动作。

(来源:Figure AI)
Figure介绍称,训练Helix仅仅用了500个小时的高质量监督数据,总量连之前收集的VLA数据集5%都不到,并且不需要多机器人数据或多阶段训练。
作为这项科技突破的结果,搭载Helix的机器人现在可以根据自然语言指令,识别并拾取几乎所有的小型家居物品,包括机器人从未见过的成千上万物品。在公司给出的案例中,机器人在听到“拿起那个仙人掌”、“拿起沙漠里的东西”时,都能选择最接近玩具的手,成功从一堆物品中拎出仙人掌玩具。

在实际操作中,配备Helix的Figure机器人通过简单的“捡起XX”指令,成功处理了成千上万次的任务,同时无需任何提前演示或额外编程。


当然,以上都是常规操作,接下来就是展现技术的时刻了。
Figure介绍称,Helix是首款可以在人形机器人上协同运行的AI模型,使得两台机器人可以协作解决一个共享的、长期的操作任务。
在演示案例中,两台模型权重相同的Figure机器人需要面对一堆首次见到的杂物,自行分类放在柜子、冰箱、盆子等收纳位置。

本次挑战的难点,是研究人员故意将一些物品放在另一个机器人面前,这意味着需要两台机器人协作才能完成摆放。
演示中,机器人之间不仅能互相理解对方和衔接动作,似乎还有一种特殊的羁绊——在交接物品时,两台机器人一定要互相对看一眼,确认彼此的“眼神”。


在演示的最后,Figure也在摆放水果的操作中展现出更高水平的协作:左边的机器人把果盆拉过来,右边的机器人顺手把水果放进去,然后左边的机器人再把果盆放回原位。

结束首次VLA模型在多机器人之间灵活、扩展的协作操作后,Figure强调这仅仅是触及了“可能性的表面”,公司渴望看到将Helix规模扩大1000倍后会发生什么。
Figure介绍称,Helix完全能够在嵌入式低功耗GPU上运行,现在立即可以进行商业部署。
代表未来发展方向吗值得关注的是,大模型与人形机器人的融合日益加深。Helix模型不仅让机器人能够“看懂”“听懂”,更重要的是,能够让机器人根据所见所闻,做出相应的行动。这打破了以往机器人技术中感知、理解和行动之间的壁垒,实现了更高层次的智能化。有专家表示,Helix模型可以被视为人形机器人发展历程中的一个重要节点,是数字化的AI模型与物理世界的真实交互,是一种“虚实融合”。

Figure AI认可了这条路线并成功移植到实体机器人上。Helix的出现证明了‘具身智能’方向的迭代速度越来越快,许多最新提出的技术路线能迅速落地到真实机器人身上。不过,目前我们依然处在技术爬坡阶段,量产仍是具身智能机器人领域面临的最大挑战。
业内普遍认为,“端到端”具身智能大模型是人形机器人发展的重要方向之一。即希望机器人能够像人一样,直接根据眼睛看到的、耳朵听到的信息,做出相应的反应,然后去执行任务。

像Helix这样的通用型VLA(视觉-语言-动作)模型,很可能代表了人形机器人大模型的一种主流发展方向。从目前的技术趋势来看,人形机器人需要的大模型,不仅仅是‘大’,更重要的是‘通’(指的是模型的通用性和泛化能力)和‘精’(模型的高效性和精确性)。
不过,“端到端”具身智能大模型并非是人形机器人发展的唯一目标,也不是现阶段的全部。业界还存在另一种技术路线,即基于LLM(大语言模型)或VLM(视觉-语言模型)的分层大模型。此方案难度低一些,一般将任务分解为感知、决策、执行等多个模块,每个模块可以使用不同的模型来实现,更易于快速落地和迭代。一些行业内的头部企业,都采用了这种方案。

与聊天式大模型相比,具身智能大模型更需要的是强大的“学习能力”——它必须能在陌生环境中,通过与环境的交互不断学习和进化。当前大模型大多是从海量数据中提取知识,而具身智能则强调“学习如何学习”,而非简单记忆已有的知识。只有具备这类元学习、上下文强化学习等理论基础,才能真正实现通用智能。虽然这类研究方向提供了思路,但还需要时间来发展和完善。
国内外机器人各有侧重全球人形机器人的技术竞赛正在升温,新技术亮相越来越密集。近日,国产“天工”机器人成为全球首例可在室外连续攀爬多级阶梯的人形机器人。“天工”实现了基于视觉的感知行走,可实现无磕碰、不踩棱、不踏空地跨越连续多级楼梯和35厘米大高差台阶,奔跑时速提高至12公里,并且能在雪地进行高速奔跑。深圳一家机器人公司的产品则完成了全球首例人形机器人“前空翻”特技。

“与Figure的最新机器人技术相比,国内的机器人是在不同领域各有侧重。”一位人工智能专家告诉《环球时报》记者,国内机器人公司在运动控制方面取得了显著成果,例如跳舞、空翻等。这些机器人可能在部分处理复杂任务,特别是涉及与环境的深度交互、理解自然语言指令等方面,与Figure相比可能有一定差距。
何时能像人一样思考在Helix的加持下,人形机器人能够直接理解自然语言、解析视觉信息,并执行相应动作。有科技媒体评论称,Helix让机器人像人一样思考和行动。Figure AI首席执行官宣称,Helix的思维方式类似于人类。目前仍处于行业的早期阶段,要让人形机器人真正具备与人类相似的思维能力,还有很长的路要走。即便最先进的大模型,在几乎无限算力的支持下,与人类的思维方式和水平依然存在显著差距。

综合国内外多篇论文来看,目前最先进的大模型应该定性于“初始AGI(通用人工智能)”阶段,虽然能力很强,但仍局限于特定领域,比如做题目等,无法在所有通用任务中始终超越人类。要实现真正像人一样思考,人形机器人需要实现通用人工智能(AGI)乃至超级人工智能(ASI)。这就得包括更先进的算法、更强大的计算能力、更完善的感知系统,以及对人类大脑工作机制的更深入理解。这是一个长期、渐进的过程,可能需要十几年、几十年甚至更长时间。

大家都是在黑暗中摸索,你现在走的路线看似取得了一定成果,最后这个路线就一定能走得通吗?这个问题没有人能够给出答案。发展未来产业的精神,就是在不确定性中寻找最大的确定性。阶段性的成果也能够形成较好的规模应用,造福社会,赋能产业。我们一开始奔着终极目标,哪怕遭遇挫折,有部分技术转化为成果也可以,并不强求非得造出一个全知全能的AGI。

未来人形机器人可能会出现新的形态。一方面,机器人不必非得是人形,“实际上人形态并不是专业场景下最好的选择,有时候轮式甚至机械臂工作效果更好、性价比更高。”另一方面,人形机器人可能会呈现虚拟形态,类似更智能、更完善的数字人。“类似于电影《流浪地球2》中的MOSS系统,也有一定的可能,但这些距离现实还相当遥远。
半岛新闻综合整理,素材来源:澎湃新闻、科创板日报、长江证券日报、一点财经、环球网等