作者 | 山竹
出品 | 锌产业
2022年12月13日,是一个值得被机器人行业记住的日子。
这一天,Google Research对外开源了RT-1模型。
与两个月前发布的ChatGPT相似的是,RT-1同样是一个基于transformer架构的通用大模型;
与ChatGPT不同的是,RT-1是面向机器人这一垂直领域的通用大模型。
作为一个通用机器人大模型,RT-1可以以97%的准确率让机械臂在厨房中执行700多项常见任务,并拥有了一定的泛化性。
RT-1出现之时足够惊艳,它甚至实现了OpenAI想做却没做成的具身智能。
而在RT-1背后,最关键的是Google Research一个16人团队,耗时17个月,花费上千万美金,用13台机器人收集的13万条真实机器人运行数据组成的训练数据集。
它是RT-1在厨房场景实现97%任务执行准确率的关键“教材”。
这之后,谷歌又相继在2023年7月和2023年10月发布了RT-2和RT-X。
谷歌RT系列相继面世,引起了全球机器人团队的高度关注,大家都开始拆解研究谷歌RT系列成果,思考大模型究竟能为机器人带来怎样的泛化能力。
也是在这时,深度参与了RT系列模型研发的谷歌机器人科学家Karol Hausman从谷歌拉出一支团队,声称要为全球机器人造一个通用大脑。
Hausman通用大脑的构想,既是RT系列的延续,也是一次逃离谷歌的冒险。
01 一代“产品”,两轮融资Hausman为从谷歌“拉出”的这支团队,起了一个很接地气的名字——Physical Intelligence,直译过来是「物理智能」。
当然,你也可以称它为具身智能,不过,他们更愿意将自己简称为PI,而他们的公司LOGO,也是直接用的数学中那个用来表示圆周率的π。
如今,PI对外公布了第一阶段研究成果——π0。
π0不是一款机器人,而是PI团队花费八个月时间造出的一个通用机器人基础模型,PI团队希望,这个模型可以让人们像使用ChatGPT这样的chatbot一样,便捷地使用机器人。
PI团队这里所说的机器人是任意品牌、任意形态的机器人,可以让这些机器人执行通用任务,也可以通过微调让这些机器人在专业场景执行专业任务。
就像ChatGPT不挑电脑品牌,甚至也可以在手机等更多终端设备上应用一样。
不过,PI团队在对外发布的论文和视频中,使用的机器人依然是基于移动平台的双机械臂。
由于这一形态最适合机器人“练手”,适合训练机器人手眼脑协调执行任务的能力,也一直是机器人,尤其是人形机器人的最简配置。
PI团队套用莫拉维克悖论解释称:
“让人工智能赢得一场国际象棋比赛或发现一种新药来说很简单,但让它执行叠衣服或清理桌面这样对人类来说再简单不过的任务,却很困难。”
为了构建能够执行类人任务的人工智能系统,在π0研发的这八个月里,PI团队最主要的工作就是采集数据,并通过大量数据来对这一模型进行高强度的训练。
据官方透露,π0的训练数据主要来源于目前行业中的开源数据集,以及他们自己通过8台机器人执行多样化任务积累下来的数据。
具体而言,这一模型训练过程可以分为以下四步:
第一,从OpenAI的GPT-4V、谷歌的Gemini这样的预训练视觉语言模型(VLM)中继承语义知识和视觉理解能力,PI团队基于此获得的30亿参数的VLM进行再调整,以适应机器人的实时灵活控制;
第二,基于PI团队自研的流匹配(flow matching)算法,为VLM模型提供连续动作输出,以使其可以实现50次/s的频率输出运动控制指令;
第三,基于开源的机器人数据集和基于基于互联网数据训练的VLM,PI团队形成了自己的视觉-语言-动作流匹配模型,并通过自采集的高质量机器人数据对这一模型进行后续训练;
第四,针对复杂、灵巧任务,对模型进行微调。
基于这四步,经过八个月的研发,PI团队搞出了第一版机器人通用大脑,π0。
相较于年初在学术界闹得沸沸扬扬的斯坦福团队遥操作的Mobile ALOHA而言,π0真正实现了完全自主执行任务。
PI团队就单一指令简单任务、复合指令复杂任务,以及叠衬衫、杂物装袋、从烤面包机中拿出吐司几个任务,对π0、π0-small(未使用VLM预训练的470M参数模型)与OpenVLA、Octo进行了对比,得出的结论是,π0实现了全面碾压。
能够在八个月内迅速造出这样的模型,得益于Hausman从谷歌拉出了一支强悍的团队。
这支拥有27人的创业团队,既有像Brian Ichter、Chelsea Finn这样来自Google Brain团队的科学家,也有像UC Berkley助理教授Sergey Levine这样同样参与了RT系列项目的外部科研团队的科学家。
可以说,Hausman是再次集结了RT项目中的科学家,做了一个延续RT系列使命的创业项目。
正因如此,PI团队在美国大受追捧,截止目前已经先后拿到了7000万美元、4亿美元两轮融资,包括红杉资本、Khosla Ventures、Thrive Capital、Lux Capital等知名投资机构都挤进了这一项目。
就连OpenAI、亚马逊创始人贝索斯,也为PI开出了支票。
据《纽约时报》报道称,这个成立不到一年的团队,如今估值已经飙升到了24亿美元。
02 硬件天团后,软件热潮来大模型让全球看到了一条通向通用人工智能的路,这不仅让全球科技巨头为之骚动,也让一大批创业团队涌入了这条赛道。
优质资源堆积的大模型赛道,很快就在全球范围内经历了一次百团大战。
然而,众所周知,大模型的进化,就是一支又一支科学家团队不断烧钱的过程,烧钱程度超乎想象。
马斯克曾为还未面世的GPT-5的训练做过一个估算,他认为,OpenAI训练GPT-5大概需要3-5万张H100,仅仅是买卡,就需要6-10亿美元。
这还不包括服务器成本、电力成本,以及顶级科学家团队的薪资成本。
另一个来自于市场研究机构CB Insights的统计数据显示,2023年,全球生成式AI新创企业一共融到了204亿美元,即便是国内,人工智能领域融资就有232笔,融资总额达到了20亿美元。
面对这样一个烧钱的大家伙,只进不出是肯定不行的,毕竟投资人的钱也不是白拿的,他们更在乎实际的经济价值和应用效果。
于是,2024年,我们看到全球都在呼唤大模型落地。
其中,AI硬件被寄予厚望,具身智能概念风起。
AI PC、AI手机,尤其是AI机器人不断涌向,就连不关注商业化的波士顿动力创始人Marc Raibert也主导成立了波士顿动力人工智能研究院。
而波士顿动力转向电驱后的Atlas,也在近日放出了在工业场景全自动执行搬运任务的Demo视频——告诉Atlas搬运位置,它就可以将零件自动搬运到相应位置。
这自然有赖于波士顿动力团队在人工智能领域的研究成果。
大模型带来的人工智能技术突破,的确让一大批机器人团队看到了推动人形机器人产业化的可能。
据IT桔子统计数据显示,2023年1月至今,国内共有29家人形机器人公司成立。
这其中就不乏银河通用、星动纪元、UniX AI这样以人工智能算法见长的团队。
人形机器人要进入产业,目前一个关键技术瓶颈是任务执行的泛化性,这就对人工智能算法提出了很高的要求。
如果说哪个团队对这类模型有着最高的声望,那一定是谷歌RT系列背后的研究团队。
Hausman正是想要破除壁障,造一个通用的机器人大脑。
他现在的方法是,通过预训练模型用来教会这个大脑有关物理世界的规律和知识,通过微调让这个大脑能够很好地执行特定任务。
借助这一模式,π0已经学会了自动完成叠衣服、收拾桌子、叠纸箱子在内的11项日常任务。
不过,经由这一模式研发的π0,实则仍然算不上机器人通用大脑,要想造出机器人通用大脑,整个模型的微调过程就需要由机器人自动完成。
在PI官方博客中,Hausman的团队也坦然承认,“通用机器人策略依然处于起步阶段,我们还有很长的路要走。”
至于此次发布的π0,PI团队自己给出的评价是:
强大的通用策略,继承了预训练大模型的语义理解能力,整合了来自不同任务和机器人平台的数据,实现了前所未有的灵活性。
而为了打造机器人通用大脑,PI团队认为,他们在模型研究上需要聚焦三个方向:
长任务链路推理和规划、自主优化和自进化、稳定性和安全性。
作为脱胎于谷歌RT系列项目的明星团队,又是只做通用软件的中立团队,据悉,PI团队已经和多家机器人公司和实验室展开合作:
一方面,帮助合作伙伴的机器人团队改进他们的遥操作和自主执行任务的能力;
另一方面,引入合作伙伴的数据,将这些数据整合到PI团队的预训练模型中,提升模型的泛化性和兼容性。
作为被黄仁勋、马斯克、奥特曼等科技巨头掌舵者看重的未来产业,也是具身智能最重要的形态,人形机器人由大脑、小脑、肢体三大核心部分组成。
而如果说谁最有可能造出机器人通用大脑,脱胎于谷歌RT系列项目的PI团队或是其中一个。