作者 | 山竹
出品 | 锌产业(公众号:xinchanye2021)
2023年8月18日,成立仅半年的智元机器人带着第一代人形机器人远征A1召开了第一场新品发布会。
仅仅半年时间,曾经的华为天才少年、B站百大UP主稚晖君就拉起了一支庞大的研发团队,设计出了复杂的产品规划框架,拿出自己的第一代人形机器人。
在那场发布会上,稚晖君描绘了自己想象中的人形机器人:
他说,预训练大语言模型庞大的先验知识库和复杂的多级推理能力,让人形机器人有了向通用型发展的可能;
他说,人形机器人的关键是大脑,智元机器人将人形机器人大脑结构设计为云端的超脑+端侧的大脑、小脑和脑干;
他说,人形机器人的开发有赖于广大开发者,智元机器人将推出开放平台和低成本教育版硬件,供开发者二次开发;
他说,希望未来的人形机器人要进入产业,需要做到20万元以内;
……
一年之后,同样是在国内最大的机器人大会——WRC 2024召开前夕,稚晖君再次召开了他的人形机器人新品发布会。
稚晖君和他的愿景在这一年里实现了多少?
这次,稚晖君又将会带来什么?
01 稚晖君的“0元购”小目标在创业做人形机器人之前,稚晖君有两个标签,一个是华为天才少年,另一个是B站UP主,两个身份都很极客。
而稚晖君这个名字火起来,也正是源于他在华为工作之余,在B站发布的各种超级硬核的机器人研发视频后为众人熟知,由此他还拿到了2021年B站百大UP主的称号。
或是因为自己就是极客开发者,因而对开发者这个群体有着独特的共情和认知,在创业智元、做人形机器人后的第一场发布会上,他就说,要开源。
开源,成了稚晖君的第一个小目标。
一年后,在今年的发布会上,稚晖君发布了两款产品,实现了他的小目标。
第一款产品是,AIDEA系列软件平台。
智元研发的这套AIDEA软件平台包括功能部署平台、数据平台、机器学习平台、仿真平台,其中最为关键的是数据采集和数据处理。
实际上,这套软件平台过去几个月里已经在智元内部应用,智元机器人不仅有AIDEA Sim仿真数据工厂,还在临港区的机器人工厂中专门设立了AIDEA数采超级工厂。
在这些数据生产和采集工作进行过程中,随着数据规模的不断扩大,智元端到端具身大模型得到了不断优化,智元人形机器人在执行分拣任务时,抓取成功率也逐渐得到了提升。
据稚晖君透露,智元AIDEA平台将在今年Q4对外开源,届时一并对外开源的还有拥有百万条真机数据、千万条仿真数据的数据集。
第二款产品是,数采本体,也就是人形机器人。
这场发布会上,稚晖君一共对外发布了五款人形机器人,包括用于交互服务场景的远征A2、用于柔性制造场景的远征A2-W、用于重载特种场景的远征A2-MAX,以及模块化机器人X1。
这其中最为独特的是X1,作为稚晖君为这场发布会预留的one more thing,X1是今年6月新成立的智元X-Lab研发的第一款产品,这款产品仅由不到10人的团队用时不到3个月研发而成。
X1一个独特之处是,全身30多个自由度仅仅用了智元自研的两个型号的关节(PowerFlow R-86和R-52),因而拥有相当高的标准化。
另外,X1用到力传感器的是低于工业精度的六维力传感器,配备的灵巧手是低成本的二指夹具,还可以将手机放到机器人中作为机器人大脑。
可以说,这是智元面向开发者打造的一款极简人形机器人,也是稚晖君在去年发布会上提到的低成本教育版硬件。
智元面向机器人数据采集场景,除了有重量级采训推理一体机器人A2-W,另一款轻量级人形机器人产品X1-W,就是由X1衍生而来。
据稚晖君透露,智元今年下半年将会投入百台以上机器人做数据采集工作。
人工智能技术要想在某一领域成熟应用,海量数据必不可少。
回看人工智能技术应用最成熟的两个领域,一个是自动驾驶,另一个是预训练大语言模型,前者每天有数百万真车Shadow数据,后者更是有海量的互联网数据。
稚晖君说,具身智能领域“没有免费的午餐”。
于是,他为大家提供了第一份免费的午餐。
据他在发布会上表示,智元将会开源X1除关节外所有本体的设计图纸、软件框架、中间件源码、基础运控算法。
这也是稚晖君在发布会上提出的“0元购”。
02 智元的具身智能分级思路如果说开源是稚晖君的一个小目标的话,那么,具身智能就是他的终极目标。
稚晖君称,人形机器人本体只是通用人工智能的基础,具身大脑才是重中之重。
为此,稚晖君参考自动驾驶分级标准,做了具身智能成熟度等级划分。
在这份具身智能成熟度等级划分中,稚晖君共将具身智能分为五个等级:
G1,基础自动化。
具体是传统基于手工设计,配合机器视觉做自动化反馈,整体是编程式、轨迹化的技术路线,这一阶段的机器人是为特定场景量身定制的。
这一阶段设计出的机器人虽然可以解决一些特定问题,但无法在不同场景中做低成本的快速迁移,不具备泛化能力。
G2,通用原子技能。
针对大量不同场景作业任务需求,提炼出可以复用的原子能力,并以相对通用的方式来实现。
这一阶段设计出的机器人可以在一定程度上实现某一类类似场景任务的快速迁移,配合任务编排大模型,使得其具备一定的泛化能力。
据悉,智元研发团队参考强化学习准则已经构建了一套由自然语言驱动的、适配不同机器人硬件的Agent OS,这一项目在智元内部虽然处于预研初期,但已经在人形机器人上呈现出了一定任务编排能力。
例如,通过智元的Agent OS,远征A2-W已经可以完成一杯饮料制作的流程编排。
在通用原子模型方面,智元研发团队已经研发出通用位姿估计模型、通用抓取模型和通用力控插拔模型。
G3,端到端操作技能。
在技术架构上与G2阶段基本相同,不同的是,从手工设计各种原子化能力转而通过数据采集,由数据驱动,端到端训练出一些原子能力。
在这一阶段,机器人学习一个新的技能将不再需要算法工程师手工设计,而是通过采集数据,基于数据进行模型训练,配合认知推理规划大模型,从而实现技能学习。
智元具身预研团队也已经在这方面开展技术研发工作。
实际上,智元研发团队目前在具身智能领域进行技术研发时,是G2、G3两条路线在并行推行。
G4,端到端操作大模型。
集合前三个阶段优点,构建端到端通用操作大模型(LMM)。
在G3阶段,对于「拧开瓶盖」和「拧开门把手」两个任务,人形机器人需要分别采集数据,通过数据进行模型训练,得到两个不同的技能。
但这两个动作的底层逻辑都是用手“拧”一个物体,本质上是一个动作。
在G4阶段,通过引入大量跨场景仿真数据和真实数据,再引入世界模型,从而帮助AI模型理解这些动作背后的物理原理,进一步提升机器人在复杂任务中的表现,实现跨场景的泛化能力。
G5,AGI。
通过大语言模型、大操作模型的融合,提供足够多的任务数据后,形成一个从感知、决策到执行的端到端大模型。
彼时,具身智能将在开放场景具备跨任务的泛化能力。
这是稚晖君提出的具身智能分级标准,也是他为智元规划的人形机器人发展路线。
要实现具身智能,不仅需要机器人硬件本体,还需要完整的软件技术架构,实际上,智元将人形机器人技术框架拆解为动力域、感知域、通信域和控制域四部分。
除去动力域的关节电机、感知域的传感模块、控制域的运控算法和具身算法外,智元研发团队甚至摒弃了传统的ROS框架,自研了一套名为AimRT的通信框架。
这套轻量级的通信架构兼容ROS2生态模块,也将在今年9月底正式开源。
03 如何成为卖“机器人铲子”的人?在由ChatGPT带来的通用人工智能技术浪潮之下,人形机器人迎来了百年难遇的利好发展期。
就国内人形机器人产业发展而言,北京、上海、深圳、宁波等地已经先后成立人形机器人创新中心,他们就人形机器人产业发展相关的基础设施——精密零部件、机器人母平台、开源数据集进行了集中攻关。
以北京为例,北京不仅组建了全国首个人形机器人创新中心,还在亦庄、昌平建了两个机器人产业园区,园区落地企业已有18家。
此外,北京具身智能专利池已完成654件专利入池,北京市去年设立的百亿机器人产业基金,也已累计投出了12亿元,支持了11个重点项目。
而就经济规模来看,2023年北京机器人产业总收入已经超过200亿元,企业数量超过400家,其中专精特新小巨人企业就有50家。
行业发展趋势利好,企业发展势头正猛,但人形机器人作为科技界的世纪难题,依然无法在短期内实现它的产业价值。
对此,锌产业在上一篇文章中结合多位行业专家的观点进行了详细剖析,这里不再赘述。
那么,在这一个阶段,能够真正从市场中赚到钱的,就只有卖铲子的人。
对于大部分人形机器人领域先行者而言,在这期间,他们需要做好两件事:
一方面,要通过快速技术迭代,跑到行业前列。
只有成为头部玩家,才能保证自己在大浪淘沙时可以“剩”者为王,也能够在下一个产业寒冬期有足够的底牌拿到融资。
智元这次下如此大功夫做开源,就是为了在人形机器人产业高速发展期再加一把推力,也是为了通过开源生态力量,建立自己的技术壁垒。
另一方面,要做好“产品”商业化。
既要做好人形机器人的“预”商业化,也要做好服务人形机器人产业“工具产品”的商业化。
目前仍然处于人形机器人产业导入的初级阶段,智元的远征A2和A2-W虽然开始筹备规模量产,远征系列人形机器人也已经在制造业场景中进行POC,预计今年能够在制造业实现部署应用。
但现阶段的制造业对于人形机器人更多是一个提前布局,双方是技术和战略合作关系,而非真正的产品供需关系。
这个阶段,人形机器人企业无法在采购层面拿到如已经成熟应用的仓储物流机器人那样规模的商业订单,做好服务人形机器人产业的工具——诸如遥操作机器人、机器人开发平台,就成了一条不错的商业化的路子。
从这次智元机器人的发布会来看,无论是推出的数据采集机器人,还是面向开发者的灵犀X1,都是当下人形机器人产业中扮演“铲子”角色的产品。
这二者是这个时代的必然需求,也是跨越周期的一个中间商业地带。