实时人-机-物交互框架RHINO:人形机器人助手从人类交互数据中学会...

智能科技有评论 2025-02-25 14:13:06
针对人形机器人在复杂交互场景中实时响应与数据的难题,提出了一种基于分层学习的交互框架,通过多模态数据采集、意图预测与技能生成模块,实现了机器人在动态环境中的高效、安全交互。

在人机交互领域,人形机器人的发展一直备受瞩目。随着技术的不断进步,人形机器人在基础运动和操作能力方面取得了显著成果,然而,要使其成为人类日常生活中真正得力的助手,仍面临诸多挑战。一个理想的人形机器人助手不仅需要具备多样化的技能,更要能够快速、准确地理解人类的意图,并基于此做出实时、恰当的反应。目前,多数相关研究存在局限性,如仅关注多阶段交互中的部分环节,忽视实时反馈,导致机器人和人的交互仅停留在延迟较高的语言指令交互上。

为解决这些问题,上海交通大学的研究团队提出了实时人机物交互框架 RHINO。该框架旨在赋予人形机器人实时响应人类指令、灵活切换任务的能力,通过学习人类交互数据,让机器人学会 “察言观色”,以非语言的肢体指令,更好地融入人类生活场景,提供高效、自然的交互服务。

论文地址:https://arxiv.org/abs/2502.13134

github项目链接:https://github.com/TimerChen/RHINO

项目网站:https://humanoid-interaction.github.io/

RHINO实机交互示意图。左上:人和机器人握手交互;左下:机器人和机器人挥手交互;右上:人和机器人干杯;右下:机器人在给人递出的文件盖章

1方法RHINO将人机交互过程建模为领导者 - 跟随者模式,其中人类作为领导者展示意图,人形机器人作为跟随者,通过一系列技能完成人类的意图要求。研究假设,一般情况下,人类的一个意图最多对应机器人的一项技能。同时机器人需要具备在不同技能之间快速切换的能力,这样才能满足人类多样化和随时变化的需求。机器人的技能可以分为三类:第一类是交互动作技能,这类技能要求机器人能够做出丰富多样且富有表现力的动作,在与人互动时展现出自然的反应,比如挥手、握手等;第二类是操作技能,它需要机器人精准地与周围环境中的物体进行交互,像拿起、放下或者操作某个工具等;第三类是空闲状态,当人类没有给出任何意图指示时,机器人就保持在一种默认的空闲状态,等待新的指令。对于机器人来说,它的观察空间来自于对周围环境和人类行为的感知。这里的环境状态包括机器人自身的状态信息、肢体姿态,以及周围物体的状态,如三维世界坐标、物品类别等。而人类行为则包含人类当前想要机器人做什么的意图,以及人类正在进行的实际行为动作,比如手部的动作、身体的姿势变化等。为了降低机器人观察和处理信息的复杂度,研究团队把整个交互策略分解成了多个子模块,并且针对每个子模块分别设计了相应的观察空间。这种分解式的设计和端到端模型不同,它可以更好地从人类交互数据将知识迁移到人机交互场景,也让机器人在面对不同的场景和不同的人类服装外表时,具有更强的泛化能力。RHINO框架示意图RHINO框架主要由反应式规划器、交互运动技能模块、操作技能模块、安全监督模块以及依托的真实机器人平台构成。反应式规划器作为关键部分,推断领导者人类意图,进而决定机器人的下一个技能,并且能处理技能的启动、中断和切换逻辑。交互运动技能模块采用扩散模型,基于人类和机器人的历史运动数据预测未来机器人运动,生成平滑自然的交互动作。操作技能模块通过为每个低层级操作技能训练独立控制策略,实现精确的物体操作,同时学习技能的成功条件以判断任务是否完成。安全监督模块实时监测并防止机器人与人类发生碰撞。真实机器人平台选用宇树H1人形机器人,配备灵巧手和RGB-D立体相机ZED mini,为各模块提供准确的感知数据,使机器人实现实时人机物交互。

1.数据收集

RHINO框架的训练涉及两类数据:人-物-人交互数据和遥操作数据,人-物-人数据用于学习理解人类意图和学习交互动作技能,遥操作数据用于学习更为精确的物体操作技能。

a.人 - 物 - 人交互数据:收集两人使用各种物体进行日常交互任务的数据。在餐饮和办公场景下,利用简单运动捕捉系统和第一人称视角的立体RGB - D相机记录数据。跟随者人类的运动数据经重定向用于构建机器人的交互动作技能,相机数据用于获取预测领导者人类的意图。

b.遥操作数据:针对物体操作技能,需要精确控制末端执行器,因而难以直接从人类交互数据迁移。操作人员通过VR设备控制机器人操作物体,数据记录操作过程中的控制命令、机器人本体感知和环境视频。同时,在数据中标注技能成功的关键帧,用于学习操作技能的结束条件。

数据集中包含的信息及实机部署RHINO框架时需要的信息

2.反应式规划器:反应式规划器基于Transformer架构,以30Hz的频率从实时观察中推断人类意图并决定机器人的下一个技能。输入数据包括从RGB - D图像中提取的人类身体和手部姿态、手部位置、最近物体信息以及机器人手部占用情况。规划器根据人类意图和技能的成功转换判断技能的开始和结束,在物体操作技能中断时,调用反向技能取消当前任务,确保机器人在不同意图和任务之间灵活切换。

3.交互运动技能:采用多体运动扩散模型生成低层级的交互运动技能。在人形机器人与人的交互中,将人类运动和机器人运动分别表示为每个关节的旋转。模型基于人类和机器人的历史运动,手部占用和人类意图作为输入预测未来机器人运动,以生成平滑、实时反馈人类意图的交互运动。

4.操作技能:为每个低层级操作技能训练独立的Action Chunking Transformer (ACT)模型,实现30Hz的实时推理。通过遥操作收集的演示数据进行手动分割和标记,用于模型训练。同时,学习操作技能的终端条件,通过预测成功信号判断技能是否完成,并添加额外的交叉熵损失进行训练。此外,通过裁剪图像聚焦机器人 - 物体交互区域,提高模型对操作技能的专注度和对人类外观、行为变化的鲁棒性。

5.安全监督模块:该模块通过深度相机获取人类手部的全局坐标,并基于机器人手臂上的关键点计算碰撞。若机器人碰撞箱与人类手部距离过近则发送不安全信号,使机器人暂停动作,直到距离恢复到安全范围,以此保障人机交互的安全性。

规划器、交互动作和物体操作技能的具体模型结构

2实验RHINO框架将人形机器人在餐饮服务员和办公室助手的现实场景下实现了一系列任务,并进行了评估。在餐饮场景中,机器人需完成如拿取放置饮料罐、餐盘等任务,服务人类用餐;在办公室场景中,机器人要执行盖章、递书等办公事务,协助人类进行办公。

1.人类意图预测:作者分别将规划器在额外采集人-机交互测试上计算了mAP分数,评估意图预测模块性能。实验结果表明,RHINO的意图预测模型在测试数据上表现优异,尽管部署到实际场景中性能略有下降,但仍优于所有基线模型。与仅输入人类运动的基线相比,RHINO模型加入手部细节信息后,性能提升显著,证明了手部细节在区分不同人类意图中的重要性。同时测试视觉语言模型(VLMs)发现,Qwen2-VL-2B-Instruct虽能以30Hz频率推断,但对人类意图的推断能力较差;GPT-4o-mini虽在测试集上表现较好,但推理延迟过大,不适合实时交互场景。

规划器对于人类意图预测能力的评估

2.运动生成:将RHINO的运动生成模块与多个基线进行对比。在FID和JPE指标上,RHINO生成的运动质量明显优于基线,表明其生成的运动与真实运动更相似,关节位置误差更小。基线模型中,无扩散过程的模型在生成运动质量上较差,说明RHINO的运动生成效果得益于扩散模型的随机性和拟合高维分布的能力。无人类运动输入的基线模型虽在MModality指标上得分较高,但在FID和JPE指标上表现不佳,说明生成高质量的实时交互动作需要领导者人类的动作信息。

交互性动作生成效果的评估

3.物体操作:测试物体操作性能时,将RHINO的操作模块与人类遥操作进行比较。结果显示,RHINO在多数任务上表现良好,在一些简单运动任务上成功率甚至超过人类。然而,在一些需要精细操作的任务中,如盖章,由于机器人手臂自由度不足和缺乏触觉感知,性能略逊于人类。

物体操作技能的评估

4.框架结构:作者在挑选的五个任务上对比RHINO与端到端(E2E)基线模型,在不同数量技能的训练和测试中,RHINO在预测人类意图和对分布外数据的鲁棒性方面均优于E2E模型。E2E模型在处理多技能任务时,容易出现意图预测错误和无法区分相似视觉场景下不同技能的问题,且受数据量影响,完全图像输入对人类外表的改变泛化能力较差。而RHINO不仅能泛化到不同外表的人类领导者,甚至可以泛化到其他的拟人机器人,实现机器人之间的交互。

RHINO框架和端到端基线的能力效果对比

3结论RHINO框架通过创新的分层学习架构,成功实现了人形机器人的实时人机物交互。该框架从人类交互数据学习人机交互能力,通过将交互过程解耦为高层意图推断和低层反应控制,机器人能够快速适应人类意图的变化,灵活中断和切换任务。该框架集成了丰富的技能学习模块,涵盖物体操作和表达性运动生成,在多种场景下展现出高效性、灵活性和安全性。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

//

为什么中国只有一个 DeepSeek?

谁将替代 Transformer?

Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现

0 阅读:0
智能科技有评论

智能科技有评论

感谢大家的关注