到了2024年,机器人已经比那些在工厂里单臂工作的老前辈们复杂多了。现在的机器人不仅能跑、能跳,还能劈叉,甚至可以进行简单的对话。但让人惊讶的是,尽管有了几十年的技术进步和大量的资金投入,最先进的机器人系统在做很多我们认为理所当然的日常任务时,还是力不从心。比如,折叠衣服或者堆砌积木这些小事儿,对它们来说就很难。真是有点讽刺,机器人在做我们认为很容易的事情时,表现得并不怎么样,至少现在是这样。不过,从ChatGPT这些大型语言模型中汲取灵感的新进展,可能会改变这个现状。
现在,机器人在我们的日常生活中越来越常见了。几十年来,工厂和制造厂一直使用简单的机械臂来快速提高生产效率。在物流方面,像亚马逊和沃尔玛这样的大品牌已经有了稍微先进一些的机器人,它们和人类一起工作,搬运重物,分拣包裹。DHL还使用了波士顿动力公司的“Stretch”机器人来取走箱子,移到传送系统上。有些快餐店,比如Denny's,甚至尝试用多层货架送餐机器人,把食物送到餐桌上。Chipotle还研发了AI引导的去核鳄梨原型。据说,仅亚马逊就已经拥有超过75万台机器人,并且这个数字还在持续增长。
虽然这些系统各有各的亮点,但在很多普通的任务上,它们还是没法和人类竞争。一个配备了合适软件的先进计算机模型,可以轻松打败最厉害的国际象棋选手,但要让同一个机器人从一堆杂乱的棋子中挑出一个,那就得费一番大功夫了。咖啡制作机器人倒咖啡的速度可能比人类咖啡师还快,但如果让它在房间里找到一个旧杯子,用微波炉加热,它就有点力不从心了。
总的来说,机器人擅长做很多人类难以做到的事情,却不擅长做很多人类容易做到的事情。这个现象,机器人领域的专家把它称为“莫拉维克悖论”,这是卡内基梅隆大学教授汉斯·莫拉维克在1988年出版的一本书里提出的。快四十年过去了,这个悖论还是让人头疼。那这到底是为什么呢?加州大学伯克利分校的教授肯·戈德伯格在去年的一次TED演讲中,试图分析这些“笨拙的机器人”的成因。
戈德伯格说,机器人面临的三大挑战是感知、控制和物理问题。在感知方面,机器人靠摄像头、激光雷达等传感器来“看”周围的世界。虽然这些工具在不断改进,但还是不如人眼可靠。这就是为什么自动驾驶汽车在遇到强烈的闪光灯,或者像去年在旧金山那样,看到引擎盖上放着橙色交通锥的其他汽车时,会出错的原因。同时,据《纽约时报》最近的一篇报道,像亚马逊的Sparrow这样的现代仓库分拣机器人在做限定范围内的工作时很熟练,但在需要更精准分拣的时候,就遇到困难了。
剑桥大学的机器人学教授饭田文也说:“亚马逊的订单可以是任何东西,从枕头到书籍,从帽子到自行车。对人类来说,拿起一件物品不掉落也不压碎,通常很容易——我们本能地知道要用多大的力。但对机器人来说,这真的很难。”
这就引出了戈德伯格说的第二个问题:控制。虽然人类和很多动物(比如狗)在数百万年的进化中已经把视觉和肢体协调得很好,但机器人可没有这种优势。机器人的摄像头和传感器经常和负责抓取物体的机械臂或夹持器不同步。这种不匹配可能会导致机器人突然把物体弄掉。这就是为什么机器人在给Denny's的顾客送热腾腾的鸡蛋和培根时,实际上只是把盘子端到桌子上,人类服务员还是得拿起盘子递给就餐者。
这并没有阻止人们尝试实现这些功能。今年早些时候,在华纳兄弟工作室的一场备受关注的新闻发布会上,特斯拉大肆宣传的“擎天柱”人形机器人漫步在活动现场,检查身份证、调制鸡尾酒、与嘉宾交谈。但实际上,这些“自主”机器和周围的好莱坞假布景一样不真实。活动后的报道显示,这些机器人其实是由附近的特斯拉员工遥控的。虽然这种夸张的表演对马斯克的项目来说是家常便饭,但它也指出了机器人技术面临的更大问题。擎天柱在活动中没完成的任务——操纵物体和倒出简单的混合饮料——对机器人来说,其实是非常困难的。
最后的问题,就是物理学了,这是人类和机器人都无法完全掌控的。戈德伯格在演讲中举了个例子,机器人把瓶子推过桌子。机器人每次都用同样的力,以同样的方式推瓶子,但瓶子最终的位置总是有点不一样。这种变化在一定程度上取决于瓶子在桌子上滑动时桌面的微观形貌。人类每天都会处理这些细微的变化,但我们本能地知道如何通过经验来纠正它。
在大多数情况下,一旦机器人被要求在其设计的狭窄测试环境之外做任何事情,它们就会开始出问题。虽然人类可能能想出如何从随机的房间里逃生,但即使是高度灵活的机器人也会感到困惑,并且会浪费时间在地板、天花板这些无意义的地方找门。有点讽刺的是,事实证明,这些细微的差别对机器人来说,比看起来更壮观的壮举(比如举起重物甚至太空旅行)更难理解。
“机器人可以一路前往火星,但它们无法捡起杂货。”饭田文也补充道。
这是目前普遍存在的困境,但现在致力于研究所谓“通用机器人大脑”的研究人员希望,他们能从最近的大型语言模型中吸取一些经验教训,并利用它们来制造适应性更强的机器人。近年来,和软件、人工智能相比,机器人领域的发展停滞不前,主要是因为训练数据的差异。像OpenAI的GPT这样的大型语言模型之所以能取得这么大的进步,是因为它们接受了从互联网上抓取的文章、书籍、视频和图像的数万亿个参数的训练。不过,这是否合法,还有待法庭裁决。
不说法律问题,在机器人训练数据方面,没有真正能和互联网相提并论的东西。因为机器人是实体物品,收集它们执行任务的数据通常需要时间,并且只能在实验室或其他有限的空间内进行。而且,机器人大多是针对特定任务的,所以来自货物装载机的数据可能对改善机器人从箱子里挑选物品的能力没有太大帮助。
但现在有几个研究小组正在尝试,是否有可能将从多种不同类型的机器人收集的数据集中到一个统一的深度神经网络中,然后用来训练新的通用机器人。其中一项努力被称为RT-X项目,由谷歌、加州大学伯克利分校以及北美、欧洲和亚洲的其他32个实验室的研究人员一起进行。这些研究人员已经创建了他们所说的世界上“现存最大的真实机器人动作开源数据集”。
这个数据集包括了机器人完成大约500种不同任务的真实经验。然后,研究人员可以用深度学习在模拟环境中对机器人进行数据集训练。戈德伯格把这样的过程描述成类似于机器人“做梦”。在RT-X案例中,机器人能够识别出与其特定目标相关的训练数据,比如机械臂的改进,并利用这些数据来改进自己。谷歌研究员Sergey Levine和DeepMind科学家Karol Hausman在IEEE Spectrum上写道,这就像人类用同一个大脑学习骑自行车或开车一样。
研究人员写道:“在RT-X数据集上训练的模型可以根据机器人自身的摄像头观察结果,简单地识别出它正在控制什么类型的机器人。”
随着技术的不断进步,机器人有望拥有一个更通用的“大脑”。随着收集到更多数据,它可以不断扩展,并可能让Figure和Tesla生产的新型人形机器人更能适应环境。我们已经开始看到这种趋势了。上个月,波士顿动力公司发布了一段视频,展示了其人形Atlas机器人在演示室中定位、抓取和移动发动机盖。
波士顿动力公司声称,Atlas能够完全自主地完成这些任务,没有任何“规定或遥控动作”。重要的是,演示甚至显示Atlas有时也会犯错误,但随后会快速调整并纠正。
当然,它现在可能还没法制作内格罗尼鸡尾酒或折叠衣物,但它让我们大致了解了这个行业的发展方向。