国内首个通用具身基座模型横空出世，国产机器人正式开启通用智能新纪元

3月10日，上海智元新创技术有限公司（以下简称“智元机器人”）发布国内首个通用具身基座模型——智元启元大模型Genie Operator-1（GO-1）。这一突破性技术被定义为“人形机器人的通用大脑”，其核心目标是通过多模态学习和泛化能力，帮助机器人快速适应复杂环境，理解自然语言指令，并摆脱传统预编程的局限性。

GO-1基于视觉语言模型，该模型向机器人提供大量图像和视频，以便它们能够更好地理解人类动作。据该公司称，用于规划和行动的算法可帮助机器人规划步骤并执行动作以完成所需的任务，实现了机器人可以利用人类视频学习，完成小样本快速泛化，降低了具身智能门槛，并成功被部署到公司的多款机器人本体。这意味着GO-1还能够持续进化，将具身智能推上新台阶。

GO-1架构图/“智元机器人”官方微博图GO-1的技术突破

（一）融合多模态与混合专家的革命性设计GO-1的核心创新在于其首创的Vision-Language-Latent-Action（ViLLA）架构，该架构由多模态大模型（VLM）和混合专家系统（MoE）协同构成，彻底改变了传统具身智能的数据利用方式。1、VLM模块：基于海量互联网图文数据训练，赋予机器人通用场景感知与语言理解能力。例如，当用户发出“挂衣服”指令时，VLM能结合环境视觉信号和语言指令，理解任务的具体要求。2、MoE模块：包含Latent Planner（隐式规划器）和Action Expert（动作专家）。前者通过跨本体和人类操作视频数据，生成任务规划路径；后者依托百万级真机示教数据，实现精细动作执行。这种架构解决了传统VLA（视觉-语言-动作）模型在数据利用上的不足。通过引入隐式动作标记（Latent Action Tokens），ViLLA弥合了图像、语言与机器人动作之间的鸿沟，显著提升了模型泛化能力。（二）小样本泛化与持续进化能力GO-1的另一个亮点是其小样本快速泛化特性。在仅需少量数据甚至零样本的情况下，模型可快速适应新场景与新任务。例如，在“倒水”“清理桌面”等任务中，GO-1的平均成功率较现有最优模型提升32%。此外，GO-1搭载了数据回流系统，能够从实际执行中遇到的问题持续学习，实现“越用越聪明”的进化效果。这种能力使得机器人不再依赖封闭实验室环境，而是能真正融入开放世界的动态场景。（从视频中可以看到，智元机器人在五种不同复杂度任务上测试GO-1，通过观看人类视频学习新任务，GO-1仅需百条级数据即可快速适应新场景，相比已有的最优模型，GO-1成功率大幅领先，平均成功率提高了32%(46%->78%)。结合数据回流系统，从实际执行中持续优化动作（如倒水时精准追踪移动水杯），倒水、清理桌面等任务成功率最高达近80%。）智元机器人

（一）公司及创始团队介绍智元机器人成立于2023年，专注于A1+机器人融合创新，致力于打造世界级领先的具身智能机器人产品及应用生态。其创始团队以“稚晖君”彭志辉为核心，作为华为“天才少年计划”的代表人物，彭志辉以其在机器人研发领域的深厚积累，迅速带领团队跻身行业前列27。公司成立仅两年便完成多轮融资，吸引了红杉中国、高瓴创投等顶级资本，估值突破10亿美元，成为具身智能领域的“独角兽”。2024年8月，智元发布了G1至G5技术路线图，并构建了一套完整的全流程具身数据方案AIDEA，为G3路线上的人形机器人提供了坚实的技术支持。2025年1月，公司已量产下线1000台机器人，计划年内实现数千台出货，并瞄准工业、服务、商业三大核心场景。尽管GO-1单机定价高达30万元，但智元机器人通过规模化生产与开源策略（计划一季度末开放模型接口），意图降低行业门槛，推动技术普及。（二）战略布局与商业化进程智元机器人从成立之初便聚焦具身智能的通用化。通过自主研发的AgiBot Digital World仿真框架，公司构建了全球最大的真机示教数据集（AgiBot World），并率先提出“数字金字塔”数据分层理念，从互联网数据到仿真数据层层递进，为模型训练提供多维支持。智元机器人目前拥有三条主打产品线：远征、灵机和Genie，分别面向商用具身场景、通用操作场景和家庭商用场景。其中，Genie系列机器人已成功量产并部署到多个行业，包括物流、医疗和家庭服务等领域。此外，智元机器人还在上海嘉定建设了年产能1万台的人形机器人生产基地，进一步推动了具身智能的商业化进程。

2024年8月，在智元机器人的发布会上，彭志辉与人形机器人远征A2握手/新闻报道图国内外具身智能模型的竞争格局

在全球范围内，具身智能领域的竞争日益激烈。美国的OpenAI和谷歌等科技巨头也在积极研发类似的大模型。（一）国际头部玩家的技术路径OpenAI RoboCat：基于扩散模型的多任务学习系统，支持跨模态指令执行，但存在实时性不足问题Google RT-2：首个将大语言模型整合到机器人控制的系统，擅长自然语言交互，但硬件适配能力较弱Boston Dynamics Spot：以运动控制见长的硬件平台，但缺乏通用智能模块。然而，这些模型主要集中在语言处理和虚拟环境中，缺乏对现实世界物理环境的直接感知和操作能力。（二）GO-1的差异化竞争力相较于国际竞品，GO-1在三个维度实现突破：硬件兼容性：支持多品牌机器人本体快速适配，已成功部署于自研人形机器人“悟空”及协作机器人“灵犀”能耗效率：在相同算力条件下，推理速度提升30%，适用于轻量化设备场景覆盖度：已验证的应用场景包括家庭服务、工业装配、应急救援等六大领域

承担家务的智元机器人/智元机器人官方微博从实验室到商业世界的跨越之路

GO-1的诞生不仅是技术突破的里程碑，更是机器人产业变革的催化剂。随着具身智能技术的持续演进，我们正站在人机协同新时代的入口。当机器人真正具备理解世界、适应变化的能力，人类社会的生产生活方式必将迎来深刻变革。（一）技术演进方向多模态融合：整合脑电波、肌电信号等生物特征数据，提升人机协同效率自主决策系统：开发基于强化学习的动态规划模块，应对非结构化环境伦理安全框架：构建可解释性AI系统，解决机器人行为决策的可追溯性问题（二）应用场景拓展智能制造：实现柔性生产线的快速部署与自适应调整智慧医疗：开发辅助手术机器人系统，提升微创手术精准度公共服务：部署社区服务机器人，解决老龄化社会的劳动力短缺问题（三）市场规模与应用场景据Statista预测，2023年全球智能机器人市场规模达460亿美元，年复合增长率近20%。而中国市场的增速更为显著，预计2030年人形机器人市场规模将突破8700亿元。GO-1的落地场景包括：工业领域：复杂流水线操作、高危环境作业服务业：酒店接待、医疗辅助、家庭服务（如端茶倒水、早餐制作）教育科研：作为“机器人老师”提供实验教学支持智元GO-1的发布不仅是技术突破，更标志着具身智能从“工具”向“自主智能体”的跨越。随着ViLLA架构的普及、数据生态的完善，未来五年内，机器人或将真正走入千家万户，成为人类生活的常态化助手。GO-1的诞生，或许正是打开通用智能时代的第一把钥匙。