
在人机交互领域,人形机器人的发展一直备受瞩目。随着技术的不断进步,人形机器人在基础运动和操作能力方面取得了显著成果,然而,要使其成为人类日常生活中真正得力的助手,仍面临诸多挑战。一个理想的人形机器人助手不仅需要具备多样化的技能,更要能够快速、准确地理解人类的意图,并基于此做出实时、恰当的反应。目前,多数相关研究存在局限性,如仅关注多阶段交互中的部分环节,忽视实时反馈,导致机器人和人的交互仅停留在延迟较高的语言指令交互上。
为解决这些问题,上海交通大学的研究团队提出了实时人机物交互框架 RHINO。该框架旨在赋予人形机器人实时响应人类指令、灵活切换任务的能力,通过学习人类交互数据,让机器人学会 “察言观色”,以非语言的肢体指令,更好地融入人类生活场景,提供高效、自然的交互服务。

论文地址:https://arxiv.org/abs/2502.13134
github项目链接:https://github.com/TimerChen/RHINO
项目网站:https://humanoid-interaction.github.io/


1.数据收集
RHINO框架的训练涉及两类数据:人-物-人交互数据和遥操作数据,人-物-人数据用于学习理解人类意图和学习交互动作技能,遥操作数据用于学习更为精确的物体操作技能。
a.人 - 物 - 人交互数据:收集两人使用各种物体进行日常交互任务的数据。在餐饮和办公场景下,利用简单运动捕捉系统和第一人称视角的立体RGB - D相机记录数据。跟随者人类的运动数据经重定向用于构建机器人的交互动作技能,相机数据用于获取预测领导者人类的意图。
b.遥操作数据:针对物体操作技能,需要精确控制末端执行器,因而难以直接从人类交互数据迁移。操作人员通过VR设备控制机器人操作物体,数据记录操作过程中的控制命令、机器人本体感知和环境视频。同时,在数据中标注技能成功的关键帧,用于学习操作技能的结束条件。
数据集中包含的信息及实机部署RHINO框架时需要的信息
2.反应式规划器:反应式规划器基于Transformer架构,以30Hz的频率从实时观察中推断人类意图并决定机器人的下一个技能。输入数据包括从RGB - D图像中提取的人类身体和手部姿态、手部位置、最近物体信息以及机器人手部占用情况。规划器根据人类意图和技能的成功转换判断技能的开始和结束,在物体操作技能中断时,调用反向技能取消当前任务,确保机器人在不同意图和任务之间灵活切换。
3.交互运动技能:采用多体运动扩散模型生成低层级的交互运动技能。在人形机器人与人的交互中,将人类运动和机器人运动分别表示为每个关节的旋转。模型基于人类和机器人的历史运动,手部占用和人类意图作为输入预测未来机器人运动,以生成平滑、实时反馈人类意图的交互运动。
4.操作技能:为每个低层级操作技能训练独立的Action Chunking Transformer (ACT)模型,实现30Hz的实时推理。通过遥操作收集的演示数据进行手动分割和标记,用于模型训练。同时,学习操作技能的终端条件,通过预测成功信号判断技能是否完成,并添加额外的交叉熵损失进行训练。此外,通过裁剪图像聚焦机器人 - 物体交互区域,提高模型对操作技能的专注度和对人类外观、行为变化的鲁棒性。
5.安全监督模块:该模块通过深度相机获取人类手部的全局坐标,并基于机器人手臂上的关键点计算碰撞。若机器人碰撞箱与人类手部距离过近则发送不安全信号,使机器人暂停动作,直到距离恢复到安全范围,以此保障人机交互的安全性。

1.人类意图预测:作者分别将规划器在额外采集人-机交互测试上计算了mAP分数,评估意图预测模块性能。实验结果表明,RHINO的意图预测模型在测试数据上表现优异,尽管部署到实际场景中性能略有下降,但仍优于所有基线模型。与仅输入人类运动的基线相比,RHINO模型加入手部细节信息后,性能提升显著,证明了手部细节在区分不同人类意图中的重要性。同时测试视觉语言模型(VLMs)发现,Qwen2-VL-2B-Instruct虽能以30Hz频率推断,但对人类意图的推断能力较差;GPT-4o-mini虽在测试集上表现较好,但推理延迟过大,不适合实时交互场景。

2.运动生成:将RHINO的运动生成模块与多个基线进行对比。在FID和JPE指标上,RHINO生成的运动质量明显优于基线,表明其生成的运动与真实运动更相似,关节位置误差更小。基线模型中,无扩散过程的模型在生成运动质量上较差,说明RHINO的运动生成效果得益于扩散模型的随机性和拟合高维分布的能力。无人类运动输入的基线模型虽在MModality指标上得分较高,但在FID和JPE指标上表现不佳,说明生成高质量的实时交互动作需要领导者人类的动作信息。

3.物体操作:测试物体操作性能时,将RHINO的操作模块与人类遥操作进行比较。结果显示,RHINO在多数任务上表现良好,在一些简单运动任务上成功率甚至超过人类。然而,在一些需要精细操作的任务中,如盖章,由于机器人手臂自由度不足和缺乏触觉感知,性能略逊于人类。

4.框架结构:作者在挑选的五个任务上对比RHINO与端到端(E2E)基线模型,在不同数量技能的训练和测试中,RHINO在预测人类意图和对分布外数据的鲁棒性方面均优于E2E模型。E2E模型在处理多技能任务时,容易出现意图预测错误和无法区分相似视觉场景下不同技能的问题,且受数据量影响,完全图像输入对人类外表的改变泛化能力较差。而RHINO不仅能泛化到不同外表的人类领导者,甚至可以泛化到其他的拟人机器人,实现机器人之间的交互。


未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
//为什么中国只有一个 DeepSeek?
谁将替代 Transformer?
Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现