人形机器人大事件!真机数据拿去用,智元你怎么敢的!

科技观察有立刚 2025-01-01 17:13:24

在大模型后,“具身智能”成了当下AI浪潮中的新热点。而在AI融入物理实体的过程中,人形机器人无疑是具身智能领域最有代表性的实体。

近日,人形机器人赛道再迎重磅事件!作为上海模塑申城语料普惠计划中的一份子,智元机器人(下称“智元”或“AgiBot”)携手上海人工智能实验室、国家地方共建人形机器人创新中心、上海库帕思正式开源了数据集AgiBot World,全球首个全功能、全场景、高质量的人形机器人百万真机数据集来了! #源神稚晖君又开源了#

作为人形机器人领域一颗耀眼之星,自“华为天才少年”“稚晖君”彭志辉2023年创立智元以来,该公司备受瞩目、发展迅速,仅仅一年半时间就融资了八轮,其中不乏高瓴创投、百度风投、比亚迪等实力资本,整体估值已超70亿元。

今年8月,智元继一年前推出首款远征A1智能机器人后,再次发布“远征”与“灵犀”两大系列共五款商用人形机器人新品,把商用人形机器人市场再次向前推了一大步。仅仅4个月后,智元还官宣了“正式开启通用机器人量产”这一消息,用彭志辉的话说,“智元机器人终于跨越初创沟堑”。

不过,智元发展虽然“坐上火箭”,但行业更关注另一件事,即彭志辉和智元高管多次公开提到的数据集开源问题。

要开源百万真机数据集和千万仿真数据集,这相当于把自己最核心、行业最需要的数据燃料倾囊相助,智元真的会这样做吗?

如今,梦想照进现实,百万真机数据集真的来了。行业的思考或许从这一刻进入全新里程:智元是如何做到的这一切?人形机器人领域将因此发生哪些改变?

用“真实”重新定义标准

就像我们熟知的语言、视觉大模型需要大量文本、素材做支撑一样,要想获得一个性能优异、和人能实现的功能极其相近的机器人,也势必需要投喂大量训练数据。

在智元选择开源之前,全球最通用的机器人操作策略一般是在Open X-Embodiment数据集上预训练的。这一大规模标准化机器人学习数据集由谷歌 DeepMind机器人团队联手20多家知名院校创建,可以覆盖多种环境和机器人变化。

事实上,Open X-Embodiment数据集为特定场景开发带来了泛化性增益,但由于在数据分布外场景成功率难称“优异”,因此训练出的机器人系统难以适应新任务、新环境的巨大挑战。而机器人操作最核心的就是泛化能力,如果只能完成少量预设任务,或者适应的场景非常单一,那面对新环境和新任务必然无法实现“即插即用”,机器人产品也就只能走向工厂流水线等环境,飞入寻常百姓家只能是“空中楼阁”。

除Open X-Embodiment数据集外,DROID等数据集也横跨了一定场景和技能,并配有语义标签、相机校准等,但数据分布仍主要集中于办公室、厨房等,任务也多局限于单臂桌面任务,向更真实融入仍然是一大问题。

相比较而言,智元此次开源的数据集(AgiBot World)无疑是对行业生态的颠覆! #智元开源,中国具身ImageNet到来#

首先,从辐射场景来看,AgiBot World主要采集自五大行业板块,横跨家庭(40%)、餐饮(20%)、工业/物流(20%)、超市(10%)等大部分生活服务场景,且均是1:1真实还原现实场景,包含洗衣服、叠衣服、熨烫衣物、烹饪、洗碗、打包、搬运桌子、安装内存条、组装零件、物料分拣等多种复杂的长程精细任务,每个场景下数据量都很充分,采集效率很高。

相较于Open X-Embodiment,Agibot World 长程数据规模整整高出10倍,场景范围覆盖面扩大100倍,数据质量已经从实验室级上升到工业级标准,真正做到了全域真实场景覆盖。

值得注意的是,要完成众多长程任务,需要机器人在较长时间跨度、多变复杂的环境内持续执行多个子任务,极其考验机器人的多模态感知、运动控制、任务规划决策、能源管理、故障处理等能力。

AgiBot World很好地构建了这些能力体系,从而给机器人应用带来了巨大变化:在过去数据集基础上生成的人形机器人,可能还在考虑怎么才能抓住桌子的某个边缘,基于AgiBot World生成的人形机器人已经可以参考“人”的行为逻辑,决定抓哪一边更好,并且可以双机器人协作来搬运桌子。

其次,从任务设计来看,与行业已有的大规模数据集相比,AgiBot World任务设计更贴合实用需求。

除了行业“常规”外,AgiBot World充分考虑到精细操作、物品情况、双臂协同、工具使用等,且单个episode对应的动作更长程,包含许多时长集中在25s-120s之间的原子动作,涉及各类场景中的3000多种物品,最终把更精细化、更贴近原始行为的任务有机组合到一起,基本实现“照搬”人类在面对复杂环境下的原生交互方式,推动了具身算法找到相对明确的“scaling law”。

比如,在汽车制造车间,过往人形机器人能实现的多是单一任务,比如简单组装、搬运等,不太具备处理复杂任务的能力,基于AgiBot World生成的人形机器人已经可以将复杂机器的许多零件精确组装到一起,或者是对焊接质量去做检测把关,真正替代人的一些劳动输出。

正是基于真实的场景和任务设计,以及百万数据的训练保障,AgiBot World具备了创造更高阶“飞跃”的潜质,呼应了稚晖君“人形机器人人人造”的愿景,为机器人操作提供了更强的泛化支持。

这种用“真实”诉说改变的方式,何尝不是对人形机器人数据集采标准的重新定义?

本体平台强,数据把控稳

智元机器人合伙人兼营销服副总裁姜青松曾在某采访中表示,“相较于互联网数据、仿真数据,真机数据是具身大脑真正需要的数据。”

真机数据也不只是采完即可,采集的效率、质量都会影响最终的输出。在数据集采质的飞跃背后,智元如何在本体平台及数据质量上进行把控?

在今年8月举行的新品发布会上,智元联合创始人彭志辉曾对外公布了具身智能G1到G5技术路线图。其中,G1阶段需要⼤量⼈⼯编排执⾏任务,G2阶段主要面向柔性智造和交互服务场景,已在多个实际场景中得到商业应用,到了G3阶段则是基于端到端数据驱动,进行大规模机器人学习。

在G3路线下,机器人通过具身大脑和小脑,完成从多模态输入到机器人控制指令输出的端到端具身操作。正是基于G3路线,智元推出了A2-W、A2、A2-D、X1-W等多款性能优异的数采本体。

(来源:AgiBot官网)

以A2-D为例,它是一款集采集、推理功能为一体,灵活移动、全身可控的轮式双臂机器人。作为稳定可靠的人形本体,A2-D内部内置丰富的传感器,搭配遥操设备和AIDEA Data数采平台。其中,20DoF(主动自由度)的本体包含了两个7DoF、负载5kg的机械臂,底盘支持原地转向,能通过95%的工厂通道,支持20+mm的越障,末端则搭载六维力矩传感器和RGB-D相机,同时可选配视触觉传感器和灵巧手。

在A2-D本体中,遥操系统包含VR和动捕两种方案,可以同步跟随采集人员的肢体动作,支持双臂操作、头部俯仰旋转、腰部俯仰升降、底盘移动及原地转向在内的全身映射,而且高精实时,相当流畅自然,基本实现对人类行为和思考模式的复制。

当然,随着数据不断收集,更高效地记录、传输、管理和分析数据才是关键。为此,智元团队专门开发了AIDEA数据平台,包含“数据采集-数据标注-数据管理-模型训练-模型评测-模型部署-数据回传”等全链路,可以实现精细物体和任务标签管理、统一采集和质控标准,让每一条数据都流经AIDEA Data的验证。

(来源:AgiBot官网)

更重要的是,AIDEA Data数采平台还通过高效的端云数据有效性分析提升了数据入库门槛,并借助多轮人工标注审核及错因复盘,确保数据交付质量,让每条出厂数据都达到合格。

正是有了类型丰富、可靠稳定的机器人,有了全身映射、高精实时的遥操设备以及全链路数据平台,质量更高、可靠性更强的百万真机数据才得以出厂,并在复杂环境中展现出极强的适应力。

因此,如果以即将辐射产学研等多栖领域的视角来评估AgiBot World,来自人形本体的保障和对于数据的精益求精,势必会让更多人有信心、敢尝试。

人形机器人迎来“ImageNet时刻”

人形机器人概念在一轮轮进化,市场前景则相对乐观。

近些年,全球范围内已涌现百余家人形机器人公司,且这一数字还在扩大。据高盛此前预测,到2035年,人形机器人市场空间有望达到1540亿美元。

从国内情况来看,《人形机器人产业研究报告》预测的数据显示,2024年我国人形机器人市场规模将达27亿元,2029年将达750亿元并跃居世界第一,2035年有望达到3000亿元。去年10月,工信部还印发《人形机器人创新发展指导意见》并提出,到2025年人形机器人创新体系初步建立,到2027年要达到世界先进水平。

不过,随着具身智能成为当下研究新高地,高质量训练数据缺失显现已成为横亘在人形机器人面前的“天堑”。在这样的背景下,智元勇于选择开源,且是百万、千万级真机数据,背后体现的是对行业和生态的积极拥抱,体现的是数据平权的通盘考量。

就像彭志辉曾公开强调的,“我们选择开源,是为了构建一个更加繁荣的产业生态。科技的价值在于造福人类,智元机器人不仅致力于打造先进的机器人产品,更希望通过开放生态,与合作伙伴携手共进,加速人形机器人在各个领域的创新和应用。”智元用自己的方式为行业提供着坚实的技术底座。

眼下,人形机器人赛道的抢滩还在继续。伴随顶层设计的牵引,北京、上海、广东等地纷纷发布利好产业政策,搭建人形机器人创新中心,打造创新生态空间,不少大型车企、互联网公司争抢着挤入这一赛道,蓝驰创投、经纬创投以及多地产业基金也加入这一轮技术革命。

AgiBot World无疑为本就很火的行业再添一把“新火”。在其带动下,产学研机构都将受益于智元提供的真机数据燃料,助推具身智能解锁商业落地,引领行业量产元年的到来。

这不禁让人联想到ImageNet。在计算机视觉领域发展的关键期,李飞飞当年创建ImageNet,这一数据集成为日后新一代人工智能技术三大基石之一,让行业向前迈了一大步。如今,人形机器人领域同样行至关键节点,智元选择开源AgiBot World,对行业无异于“ImageNet时刻”!

正是有智元这样敢于开源、拥抱生态的企业存在,不久的将来,人形机器人产品走入千家万户或许不再是梦。 #源神稚晖君又开源了# #智元开源,中国具身ImageNet到来#





0 阅读:0
科技观察有立刚

科技观察有立刚

感谢大家的关注