曾经我们在电影中看到的机器人,现在正乘着大模型的东风,离我们越来越近。
特斯拉日前展示了最新版本的擎天柱机器人Optimus二代。在一段新发布的视频中,第二代人形机器人看起来比上一代具有更大的灵活性,包括更优雅的行走姿势以及自由度更大的双手,甚至可以用它来完成煮鸡蛋等精细活,从Optimus二代的表现来看,特斯拉对于人行机器人的发展又起到了推动作用。
除了特斯拉外,不少科技厂商尝试将图像语言大模型的能力和知识迁移到机器人领域,比如包括微软的ChatGPT for Robotics,谷歌的PaLm-E、RT-1、RT-2,还有VoxPoser、BoboCat等。
那么,这是不是意味着人形机器人真的要走进我们的生活呢?
人形机器人很美,但离商业化还有些远
在发布机器人Optimus二代后,特斯拉表示,第二代擎天柱机器人在保留原有功能的情况下,重量减轻了10公斤,而且机器人的平衡性更好,例如可以自如地下蹲和起立,并且在行走时的速度提高了30%。
擎天柱的最大升级是双手,拥有11个自由度,能更巧妙地移动物体,如视频展示,机器人可以捡起鸡蛋并轻轻放下,这得益于传感技术的提升。全新的擎天柱发布标志着特斯拉距离创造一种“通用、双足、自主人形机器人”更近了一步。特斯拉的目标是,能够让人形机器人执行危险、重复烦琐的任务。
马斯克早在2021年表示,“未来每个人都会拥有一个人形机器人,这个市场将会是百亿美元级别的。”
但实现这一目标可能还需要很多年时间。特斯拉预计Optimus机器人的商业版本有望在未来三到五年才能上市,但早期版本也只可能会率先在汽车生产线上进行测试。
我们需要了解的是,人形机器人软硬件结构复杂,是智能机器人领域中技术难度极高的一个分支。其中,软硬件系统的结合与通讯的实时可靠是确保人形机器人实现稳健运动的基础。此外,动态稳定运动控制也是人形机器人的一大挑战。
除技术难点外,成本也一直是人形机器人难以商业化的重要原因之一。以波土顿动力的Atlas机器人为例,尽管其已经能自主规划路径,可实现后空翻、跑酷等高难度动作,但代价是需配置大量功率很大的液压驱动器,因此制造成本居高不下,预估达到200万美元。
不过,虽然会面临巨大的挑战,但我们还是乐于看到机器人产业的发展,而随着ChatGPT的爆发,促使科技巨头们不断强化自身生成式AI产品,这也许会让机器人产业来到一个新的高度。
被大模型带火的具身智能
长久以来,人类对人工智能技术和应用的探索从未停歇,今年以ChatGPT为代表的生成式AI走红全球,深刻影响着内容创作行业,将带来效率的极大提升。
但人工智能的应用还远不止于此,虽然生成式AI使得类人大脑变得越来越聪明,但始终是抽象的,如果将其具象化,比如加上一个机器人身体,是不是就能成为具身智能机器人。
具身智能(Embodied AI),又被视作人工智能的终极形态。他们用物理身体进行感知,通过智能体与环境的交互获取信息、理解问题、作出决策并实现行动。通俗来讲,既可以理解成是AI大模型披上机器人的壳,机器人长出AI大模型的脑。
图灵奖得主、上海期智研究院院长姚期智认为,人工智能领域下一个挑战将是实现“具身通用人工智能”,即如何构建能够通过自我学习掌握各种技能并执行现实生活中的种种通用任务的高端机器人。清华大学计算机系教授张钹院士,也在某产业智能论坛上提出,随着基础模型的突破,通用智能机器人是未来的发展方向。
英伟达创始人黄仁勋在ITF World 2023半导体大会上表示,具身智能是能理解、推理、并与物理世界互动的智能系统,是人工智能的下一个浪潮。
在微软研究院发布“ChatGPT for Robotics” 文章中,研究者使用ChatGPT大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码,从而控制机械臂、无人机等机器人,ChatGPT带来了一种新的机器人应用范例。
目前,已经能够通过给ChatGPT的对话框输入指令,让其控制机器人在房间中找到“健康饮料”、“有糖和红色标志的东西”,以及一面供无人机自拍的镜子。
而谷歌则与德国柏林工业大学的一组人工智能研究人员公布了视觉语言模型PaLM-E,集成了5400亿参数量的PaLM模型和220亿参数量的视觉ViT模型,总参数量达到5620亿,是目前已知的最大的视觉-语言模型。
该模型在多任务中表现了强大的感知能力,机器人可以在要求下从抽屉里拿东西,然后走过去递给人,研究员要求机器人将“绿色色块推到乌龟旁边”的指令,即便机器人之前没有见过这只乌龟摆件,也能完成任务。
对于国内外科技公司不断布局机器人产业,但更多的是行业内的巨头,对于这样的表现一位分析师朋友告诉元宇宙新声:“科技巨头有资金、实力和技术,细分供应链市场虽不一定由巨头占主导,但整体而言,人形机器人整机市场可能成为科技巨头的游戏。”
虽然,巨头们已经开始布局具身智能,但元宇宙新声认为,LLM方兴未艾,距离通用智能只是理论可行,究竟如何实现,还有很长的路要探索。从这个角度来看,被大模型带火的具身智能,目前也还停留在语言、视觉这两个经典的AI任务阶段,未来还有很大的扩展空间。
政策推动国内机器人产业发展
一直以来,机器人都被誉为“制造业皇冠顶端的明珠”,是衡量一个国家科技创新和高端制造业水平的重要标志,随着人工智能领域的发展,我国也在政策、市场等方向推动机器人产业升级。
11月初,工业和信息化部印发《人形机器人创新发展指导意见》提出,到2025年,人形机器人创新体系初步建立,“大脑、小脑、肢体”等一批关键技术取得突破,确保核心部组件安全有效供给。整机产品达到国际先进水平,并实现批量生产,在特种、制造、民生服务等场景得到示范应用。
从地方政府层面来看,北京已着手设立产业集群。11月2日,北京率先成立国内首家省级人形机器人创新中心。该中心由机器人整机、核心零部件、大模型等企业共同组建,开展通用人形机器人本体原型、人形机器人通用大模型、运控系统、工具链、开源OS及开发者社区等5项重点任务攻关。
除北京以外,上海、深圳等地也发布了类似的行动方案,都包括发展人形机器人的内容。比如,深圳提出将开展通用型具身智能机器人的研发和应用,加快组建人形机器人制造业创新中心;上海提出将建设国际算法创新基地,加快人形机器人创新发展。
在政策的推动下,国内各大厂商们也在不断发力产品和技术的创新。早在2022年8月,小米甚至领先于特斯拉,推出旗下首款全尺寸人形仿生机器人CyberOne(铁大)。目前,CyberOne除了现身科技主题展会,还在电影拍摄、特效制作、场景还原等方面发挥重要作用。据了解,小米集团已经与《流浪地球3》达成战略合作,也许CyberOne将在这部电影中出镜。
科大讯飞是继小米后又一家自研人形机器人的厂商,在10月24日的科大讯飞开发者节上,该公司董事长刘庆峰正式向大众推出旗下的人形机器人产品。据介绍,这款机器人和宇树科技合作研发,科大讯飞将以人形机器人为牵引,推进“视觉-语言-动作”多模态具身智能大模型。
与科大讯飞同一天完成人形机器人产品首秀的,还有造车新势力小鹏汽车。何小鹏在“1024科技日”上介绍,过去五年小鹏主要探索四足“机器马”,这次仅花了5个月完成双足人形机器人PX5稳定行走。PX5目前只有1.5米高,小鹏希望以后做更高一点的机器人,而且将XNGP、XEEA电子电气架构,XGPT灵犀大模型、XNet2.0智能驾驶系统等与智能汽车同源的技术,快速植入机器人体系。
对我国而言,机器人产业作为蓬勃发展的新兴生产力,核心技术不断创新,人工智能、高端制造等加速发展,也促使“机器人+”的场景不断深化,面向未来,机器人产业的创新发展,将为加快建设制造强国、数字中国,推进中国式现代化提供更加有力的支撑。
写在最后
我们看到,2023年适逢全球第一台人形机器人诞生50周年,期间在该行业内不断上演着探路先锋们失败或艰难摸索的案例。元宇宙新声认为,今年涌现出的新一轮人形机器人研发热潮,有望在政策加持以及市场推动下实现技术突破和规模效应,为此后人形机器人的商业化打下基础。
可以想象,人与机器人的融合将是一个具有历史意义的过程,并对整个社会产生深远的影响。在这个过程中,我们不仅要考量技术的发展,还要对机器人和人之间的伦理和道德问题进行深入研究,在两者之间找到一个平衡点,以保证机器人融入人的过程满足社会发展的需求,营造一个更和谐、更稳定、更美好的未来。